SlideShare ist ein Scribd-Unternehmen logo
1 von 20
BigQueryを活用したPrivate DMPを作って
使ってるお話
#bq_sushi tokyo #6
川田 雅人、木村 豊、黒澤 慎太郎、その他BQerの皆様サンクス
ソニーネットワークコミュニケーションズ(株)
クラウド・アプリ事業部門
2 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc.
イントロダクション
R&D、組み込み、新規事業企画、
IT営業、エンジニアなどを経たものの、
コアはソフトウェアエンジニアとして
クラウド&データ歴6年
@ソニーネットワークコミュニケーションズ(SNC)
川田雅人
Masato Kawada
今回の内容は宣言通り
「今年のGC Nextのキーノートで
発表した内容の技術的Deep dive
です。データ設計のキモ、比較、イケ
てないところなど、言えなかったことをお
話しします!」
です。
キーノートと全然テイスト違います!
3 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc.
SNC クラウド&アプリ事業とデータ活用
ソニーグループ製品・サービスへの
クラウドサービス開発運用、
分析・グロース支援
アプリ&データを活用した
メディア事業、デジタル配信事業
4 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc.
なんでBigQuery使うの?
5 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc.
答え: データ分析・ビジネス活用の生産性をあげたかったから
2014 2015 2016 2017 year
#records
/month
(billion)
1.8
7
12
PDCA
Volume & Variety
データが容量も種類も増
えているのに、予算や人
が増えない。。
Background
Agility
PDCAを速く回すには
分析官がストレスの少
ないデータ環境がいる
To-Be
No-system ops
インフラ・システムを運用
するんじゃなくて
データを運用する
Democratization
データドリブンビジネスを
するために
分析官が満足するだけで
なく、企画やエンジニアに
も敷居をさげる
Biz operator
Data
scientist Engineer
一番の理由は、分析官もエンジニアもやりたかったから!
6 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc.
クラウドシステムアーキテクチャ (2016年初め)
Device &
application
Frontend,
Service provision
Backend
for big data
ほとんどの要素はAWSで構成、Hadoop使い始めたのが2013年。
BigQueryをアドホック分析で使い始めていた
7 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc.
アドホック分析環境から、商用データ分析基盤にするには
アドホック環境要件
クエリ速く!
安く!
Data
scientist
クエリエラーしてもねー
ちょちょいとなんとかしちゃうよー
ID管理
アクセスコントロール
セキュリティ
利用者拡大しつつ、
性能・ガバナンス担保
分析結果をBI・外部
連携にすぐ自動化
理解しやすい、分析し
やすいデータ構造
商用データ分析基盤要件
Biz operator
Data
scientist Engineer
連続稼動性、セキュリティ、使いやすさ、性能、
コスト管理、運用性、ユーザ多い。。。
GAP
8 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc.
Hive on EMR Redshift BigQuery
クエリ HiveQL PostgreSQL BigQuery SQL
(その後Standard SQL)
クエリ
パフォーマンス
速い しっかりチューニングすれば
とても速い
とても速い
(エラーが起きることもある…)
コスト クラスタのインフラコスト クラスタのインフラコスト クエリのデータ使用量
安い!(ただしうまく使えば)
システム運用 クラスタのお守りが必要 クラスタのお守りと十分なチュー
ニングが必要
マネージドサービスとして
ほぼ不要
(不安があったが、、、)
セキュリティは
社内ルール的に
十分?
十分、Passed
(VPC, ACL/IAM)
十分、Passed
(VPC, ACL/IAM)
十分でない
(IPアドレスが絞れない、
ACL/IAMがまだ不十分だった)
商用データ基盤で使うか、検証POCをしました in 2016
「BigQueryはセキュリティ要件以外は望ましい」  「使うデータを選んで使う」
9 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc.
ETL Analysis Data Mart
Private DMPアーキテクチャ: フルマネージドにできる
Data Loader
Data warehouse, Intermediate
& Data mart
Querying Framework
Data
studio
Architecture: Private DMP
SFTP
API
Source
Stream & Bulk
10 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc.
工夫1: クエリ開発&実行フレームワーク
Pull Req
分析結果をすぐに商用サービス・PDCAに適用する
簡単なチューニングは、SQLを少し書ける人でもできる!
Querying Framework
• SQL (+ UDF)
• Schedule
• Target output
Review,
Merge
定期実行
Biz operator
主任級?の
分析官・エンジニア
Data
scientist
11 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc.
工夫2: 階層的データ構成
Metadata
SQL, csv, etc
ETL
Clean
sing
Raw Layer
Intermediate
layer
Raw A Raw B Raw C
Int A’ Int C’
Standard
format
Join
metadata
Int BC’
Int A“B” Int ABC”
App / Mart
layerApp 1
JOIN、補間、統計計算、K-匿名化
App 2 App 3
Sources
ID matching
and tokenize
1次抽出・変換・時系列管理
中間層のデータ設計で、系の性能・ROIを決める
(ユーザ・用途に応じたテーブル、理解しやすいデータ、クエリの性能・コスト、アクセスコントロール)
12 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc.
クラウドシステムアーキテクチャ (2017年初め)
Device &
application
Frontend,
Service provision
Backend
for big data
データ要件に応じて、AWSとGCPを併用、となりました
Data with strong security Private DMP Anonymized data
秘密の
データ
13 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc.
その後どうでしょう?
14 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc.
しっかり使ってます!
セグメントを作るためのクエリは約60本
(Bizの人がほぼチューンできちゃう)
他の分析PJで約100本
システム運用メンバ x >> X
データ運用メンバ y < Y
データ分析メンバ z << Z
クエリするBizの人 0 < A
No-opsは無理
だが
システム運用から
データ運用へ
データ
民主化!
まだ改善点が多いですが
データ分析・運用にフォーカスしたチーム構成に
人が増えても
XX万円溶けたってことはなくなったかな。。。
以前 今
15 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc.
その他技術的なノウハウ
Schema-lessなJSONの安定投入 コスト、アクセス権対策のため
テーブルパーティション分割は細かめに
id b c Error Column
1 “D" true
2 NULL false
3 Value of key b is
invalid
json_payload
"{ "id": 1, "b": “D”, "c": true}"
"{ "id": 2, "c": false}"
“{ ”id“: 3, ”b“: 10, ”c“: false}” 不正
UDF(Null補間、データエラーチェック)
JSON
Raw table
遺産があり注意(全部変えるのは大変)
ルールを作る
・古いもの
レガシーSQL + 過去のテーブルモデル
・新しいもの
スタンダードSQL + 日付や種類でパーティション
&レイヤ構造
 過ちが少ない、アクセスコントロールできる
16 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc.
できちゃうからこそ、ご利用は計画的に
色んな人が使うDMP基盤なので
DataStudioでコスト・データ量管理
生々しくてお見せできません
Billing情報と利用情報から
全体見たり、権限つけたり、傾向見たり
高速・並列で出来ちゃうからこそ
使いすぎに注意! BQ police
GKE Analysis
BQ-Police
Billing情報
XX万円!
学習データ
BQとGKE を用いた分散機械学習基盤で
コストを監視
超並列
分散学習
17 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc.
現場の声(素直でごめんなさい)
Legacy SQLと
Standard SQLを
よく間違う
(BigQuery Mate愛用)
Legacy SQLが技術負債
に、、、いきなりアナウンス無し
に動かなくなることが
日本のサポート
が、、、
UDFすごく便利!
並列計算爆速!
DataStudioはシンプ
ルで無料でうれしい
あまりも気軽すぎて分
析設計がおざなりにw
社内セキュリティ要件
の対応はこれから
UDFの同時実行数
など上限には注意
18 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc.
 BigQueryを商用で使うのは、(特に2016年では)チャレンジでした。
 データを扱いやすくするため、柔軟性、コスト、変換、などトレードオフ要素を考えて行っ
た一つのデータレイク設計事例として参考にしていただければ幸いです
 グループ会社内でBigQueryを使う人が増えています
• 実際はAWS/Azureを含めて増えているとは思います
• 社内外で分け隔てなく仲間を作っていきたいです
• Googleさんの支援を引き続きお願いします!
 データはおいしく調理しつづけて行きたいです。社員(分析官)が喜びます。
まとめ
19 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc.
Happy
Holidays!!
Special thanks to
木村さん、鈴木さん
黒澤さん、楠本さん、
パートナーの皆様
(特に照井さん!)
高倉さん、増田さん
G社にいっちゃったYさん
SONYはソニー株式会社の登録商標または商標です。
各ソニー製品の商品名・サービス名はソニー株式会社またはグループ各社の登録商標または商標です。その他の製品および会社名は、各社の商号、登録商標または商標です。

Weitere ähnliche Inhalte

Was ist angesagt?

学生のための AI で考える近未来
学生のための AI で考える近未来学生のための AI で考える近未来
学生のための AI で考える近未来Daiyu Hatakeyama
 
15分で説明するディープ ラーニング フレームワーク「Microsoft Cognitive Toolkit (CNTK)」
15分で説明するディープ ラーニング フレームワーク「Microsoft Cognitive Toolkit (CNTK)」15分で説明するディープ ラーニング フレームワーク「Microsoft Cognitive Toolkit (CNTK)」
15分で説明するディープ ラーニング フレームワーク「Microsoft Cognitive Toolkit (CNTK)」Naoki (Neo) SATO
 
第3回JAZUG静岡勉強会 Azure概要
第3回JAZUG静岡勉強会 Azure概要第3回JAZUG静岡勉強会 Azure概要
第3回JAZUG静岡勉強会 Azure概要fumios
 
第36回BAクリエイターズサロン - デジタル時代に クリエータの皆さんが知っておきたい AIと付き合うためのコツ
第36回BAクリエイターズサロン - デジタル時代に クリエータの皆さんが知っておきたい AIと付き合うためのコツ第36回BAクリエイターズサロン - デジタル時代に クリエータの皆さんが知っておきたい AIと付き合うためのコツ
第36回BAクリエイターズサロン - デジタル時代に クリエータの皆さんが知っておきたい AIと付き合うためのコツDaiyu Hatakeyama
 
【講演資料】まだ自前でシステムを持ち続けるのですか? クラウドにまつわる3つの誤解と新しい常識
【講演資料】まだ自前でシステムを持ち続けるのですか? クラウドにまつわる3つの誤解と新しい常識【講演資料】まだ自前でシステムを持ち続けるのですか? クラウドにまつわる3つの誤解と新しい常識
【講演資料】まだ自前でシステムを持ち続けるのですか? クラウドにまつわる3つの誤解と新しい常識Masanori Saito
 
Developers Summit 2015 【19-B-L】 DevOpsの究極の形!?、クラウドで始めるドキュメント・データベース活用のポイント。
Developers Summit 2015 【19-B-L】 DevOpsの究極の形!?、クラウドで始めるドキュメント・データベース活用のポイント。Developers Summit 2015 【19-B-L】 DevOpsの究極の形!?、クラウドで始めるドキュメント・データベース活用のポイント。
Developers Summit 2015 【19-B-L】 DevOpsの究極の形!?、クラウドで始めるドキュメント・データベース活用のポイント。aiichiro
 
30年来真名んできた中で IoT 実装で役立っている基礎技術
30年来真名んできた中で IoT 実装で役立っている基礎技術30年来真名んできた中で IoT 実装で役立っている基礎技術
30年来真名んできた中で IoT 実装で役立っている基礎技術Knowledge & Experience
 
世界のデジタル・トランスフォーメーション最前線
世界のデジタル・トランスフォーメーション最前線世界のデジタル・トランスフォーメーション最前線
世界のデジタル・トランスフォーメーション最前線IoTビジネス共創ラボ
 
DX実践!~ビジネスアジリティ向上とマイクロサービス技術GraphQLの活用~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
DX実践!~ビジネスアジリティ向上とマイクロサービス技術GraphQLの活用~(NTTデータ テクノロジーカンファレンス 2020 発表資料)DX実践!~ビジネスアジリティ向上とマイクロサービス技術GraphQLの活用~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
DX実践!~ビジネスアジリティ向上とマイクロサービス技術GraphQLの活用~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTT DATA Technology & Innovation
 
【Interop tokyo 2014】 ネットワークは”NGN”から”EPN”へ
【Interop tokyo 2014】 ネットワークは”NGN”から”EPN”へ【Interop tokyo 2014】 ネットワークは”NGN”から”EPN”へ
【Interop tokyo 2014】 ネットワークは”NGN”から”EPN”へシスコシステムズ合同会社
 
[de:code 2019 振り返り Night!] IoT
[de:code 2019 振り返り Night!] IoT[de:code 2019 振り返り Night!] IoT
[de:code 2019 振り返り Night!] IoTHaruka Kurihara
 
デジタルツインの世界
デジタルツインの世界デジタルツインの世界
デジタルツインの世界SHOGO NUMAKURA
 
GTC November 2021 – テレコム関連アップデート サマリー
GTC November 2021 – テレコム関連アップデート サマリーGTC November 2021 – テレコム関連アップデート サマリー
GTC November 2021 – テレコム関連アップデート サマリーNVIDIA Japan
 
Inspire2017 Fukuoka [Keynote FUK] Where the People Meets to Inspire the Business
Inspire2017 Fukuoka [Keynote FUK] Where the People Meets to Inspire the BusinessInspire2017 Fukuoka [Keynote FUK] Where the People Meets to Inspire the Business
Inspire2017 Fukuoka [Keynote FUK] Where the People Meets to Inspire the BusinessMPN Japan
 
SORACOM UG 農業活用コミュニティ #1 | IoT向け通信プラットフォーム「SORACOM」ご紹介
SORACOM UG 農業活用コミュニティ #1 | IoT向け通信プラットフォーム「SORACOM」ご紹介SORACOM UG 農業活用コミュニティ #1 | IoT向け通信プラットフォーム「SORACOM」ご紹介
SORACOM UG 農業活用コミュニティ #1 | IoT向け通信プラットフォーム「SORACOM」ご紹介SORACOM,INC
 
物体認識 IoT サービスを支える技術 〜クラウドアーキテクチャから組込み深層学習まで〜
物体認識 IoT サービスを支える技術 〜クラウドアーキテクチャから組込み深層学習まで〜物体認識 IoT サービスを支える技術 〜クラウドアーキテクチャから組込み深層学習まで〜
物体認識 IoT サービスを支える技術 〜クラウドアーキテクチャから組込み深層学習まで〜Takashi Kaneda
 
誰でもできるスマートシティ向けOSS : FIWAREのはじめかた
誰でもできるスマートシティ向けOSS : FIWAREのはじめかた誰でもできるスマートシティ向けOSS : FIWAREのはじめかた
誰でもできるスマートシティ向けOSS : FIWAREのはじめかたShunsuke Kikuchi
 
【Japan Partner Conference 2019】Intelligent Manufacturing の実現に向けたマイクロソフトの取り組み
【Japan Partner Conference 2019】Intelligent Manufacturing の実現に向けたマイクロソフトの取り組み【Japan Partner Conference 2019】Intelligent Manufacturing の実現に向けたマイクロソフトの取り組み
【Japan Partner Conference 2019】Intelligent Manufacturing の実現に向けたマイクロソフトの取り組み日本マイクロソフト株式会社
 

Was ist angesagt? (20)

学生のための AI で考える近未来
学生のための AI で考える近未来学生のための AI で考える近未来
学生のための AI で考える近未来
 
15分で説明するディープ ラーニング フレームワーク「Microsoft Cognitive Toolkit (CNTK)」
15分で説明するディープ ラーニング フレームワーク「Microsoft Cognitive Toolkit (CNTK)」15分で説明するディープ ラーニング フレームワーク「Microsoft Cognitive Toolkit (CNTK)」
15分で説明するディープ ラーニング フレームワーク「Microsoft Cognitive Toolkit (CNTK)」
 
第3回JAZUG静岡勉強会 Azure概要
第3回JAZUG静岡勉強会 Azure概要第3回JAZUG静岡勉強会 Azure概要
第3回JAZUG静岡勉強会 Azure概要
 
第36回BAクリエイターズサロン - デジタル時代に クリエータの皆さんが知っておきたい AIと付き合うためのコツ
第36回BAクリエイターズサロン - デジタル時代に クリエータの皆さんが知っておきたい AIと付き合うためのコツ第36回BAクリエイターズサロン - デジタル時代に クリエータの皆さんが知っておきたい AIと付き合うためのコツ
第36回BAクリエイターズサロン - デジタル時代に クリエータの皆さんが知っておきたい AIと付き合うためのコツ
 
【講演資料】まだ自前でシステムを持ち続けるのですか? クラウドにまつわる3つの誤解と新しい常識
【講演資料】まだ自前でシステムを持ち続けるのですか? クラウドにまつわる3つの誤解と新しい常識【講演資料】まだ自前でシステムを持ち続けるのですか? クラウドにまつわる3つの誤解と新しい常識
【講演資料】まだ自前でシステムを持ち続けるのですか? クラウドにまつわる3つの誤解と新しい常識
 
Developers Summit 2015 【19-B-L】 DevOpsの究極の形!?、クラウドで始めるドキュメント・データベース活用のポイント。
Developers Summit 2015 【19-B-L】 DevOpsの究極の形!?、クラウドで始めるドキュメント・データベース活用のポイント。Developers Summit 2015 【19-B-L】 DevOpsの究極の形!?、クラウドで始めるドキュメント・データベース活用のポイント。
Developers Summit 2015 【19-B-L】 DevOpsの究極の形!?、クラウドで始めるドキュメント・データベース活用のポイント。
 
30年来真名んできた中で IoT 実装で役立っている基礎技術
30年来真名んできた中で IoT 実装で役立っている基礎技術30年来真名んできた中で IoT 実装で役立っている基礎技術
30年来真名んできた中で IoT 実装で役立っている基礎技術
 
世界のデジタル・トランスフォーメーション最前線
世界のデジタル・トランスフォーメーション最前線世界のデジタル・トランスフォーメーション最前線
世界のデジタル・トランスフォーメーション最前線
 
DX実践!~ビジネスアジリティ向上とマイクロサービス技術GraphQLの活用~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
DX実践!~ビジネスアジリティ向上とマイクロサービス技術GraphQLの活用~(NTTデータ テクノロジーカンファレンス 2020 発表資料)DX実践!~ビジネスアジリティ向上とマイクロサービス技術GraphQLの活用~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
DX実践!~ビジネスアジリティ向上とマイクロサービス技術GraphQLの活用~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
【Interop tokyo 2014】 ネットワークは”NGN”から”EPN”へ
【Interop tokyo 2014】 ネットワークは”NGN”から”EPN”へ【Interop tokyo 2014】 ネットワークは”NGN”から”EPN”へ
【Interop tokyo 2014】 ネットワークは”NGN”から”EPN”へ
 
[de:code 2019 振り返り Night!] IoT
[de:code 2019 振り返り Night!] IoT[de:code 2019 振り返り Night!] IoT
[de:code 2019 振り返り Night!] IoT
 
デジタルツインの世界
デジタルツインの世界デジタルツインの世界
デジタルツインの世界
 
IoT活用事例集
IoT活用事例集IoT活用事例集
IoT活用事例集
 
GPUいらずの高速動画異常検知
GPUいらずの高速動画異常検知GPUいらずの高速動画異常検知
GPUいらずの高速動画異常検知
 
GTC November 2021 – テレコム関連アップデート サマリー
GTC November 2021 – テレコム関連アップデート サマリーGTC November 2021 – テレコム関連アップデート サマリー
GTC November 2021 – テレコム関連アップデート サマリー
 
Inspire2017 Fukuoka [Keynote FUK] Where the People Meets to Inspire the Business
Inspire2017 Fukuoka [Keynote FUK] Where the People Meets to Inspire the BusinessInspire2017 Fukuoka [Keynote FUK] Where the People Meets to Inspire the Business
Inspire2017 Fukuoka [Keynote FUK] Where the People Meets to Inspire the Business
 
SORACOM UG 農業活用コミュニティ #1 | IoT向け通信プラットフォーム「SORACOM」ご紹介
SORACOM UG 農業活用コミュニティ #1 | IoT向け通信プラットフォーム「SORACOM」ご紹介SORACOM UG 農業活用コミュニティ #1 | IoT向け通信プラットフォーム「SORACOM」ご紹介
SORACOM UG 農業活用コミュニティ #1 | IoT向け通信プラットフォーム「SORACOM」ご紹介
 
物体認識 IoT サービスを支える技術 〜クラウドアーキテクチャから組込み深層学習まで〜
物体認識 IoT サービスを支える技術 〜クラウドアーキテクチャから組込み深層学習まで〜物体認識 IoT サービスを支える技術 〜クラウドアーキテクチャから組込み深層学習まで〜
物体認識 IoT サービスを支える技術 〜クラウドアーキテクチャから組込み深層学習まで〜
 
誰でもできるスマートシティ向けOSS : FIWAREのはじめかた
誰でもできるスマートシティ向けOSS : FIWAREのはじめかた誰でもできるスマートシティ向けOSS : FIWAREのはじめかた
誰でもできるスマートシティ向けOSS : FIWAREのはじめかた
 
【Japan Partner Conference 2019】Intelligent Manufacturing の実現に向けたマイクロソフトの取り組み
【Japan Partner Conference 2019】Intelligent Manufacturing の実現に向けたマイクロソフトの取り組み【Japan Partner Conference 2019】Intelligent Manufacturing の実現に向けたマイクロソフトの取り組み
【Japan Partner Conference 2019】Intelligent Manufacturing の実現に向けたマイクロソフトの取り組み
 

Ähnlich wie BigQueryを活用したPrivate DMPを作って使ってるお話

IOT and Lean Manifacturing
IOT and Lean ManifacturingIOT and Lean Manifacturing
IOT and Lean ManifacturingOsaka University
 
3Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.13Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.1ITDORAKU
 
New IP へのステップ その1) Fabric – すべての基本はファブリックにあり
New IP へのステップ その1) Fabric – すべての基本はファブリックにありNew IP へのステップ その1) Fabric – すべての基本はファブリックにあり
New IP へのステップ その1) Fabric – すべての基本はファブリックにありBrocade
 
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~ ≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~ Brocade
 
JAWS-UG広島 - 2019-07-12 - 金融ビッグデータを守るリソースポリシー実例
JAWS-UG広島 - 2019-07-12 - 金融ビッグデータを守るリソースポリシー実例JAWS-UG広島 - 2019-07-12 - 金融ビッグデータを守るリソースポリシー実例
JAWS-UG広島 - 2019-07-12 - 金融ビッグデータを守るリソースポリシー実例Yutaro Ono
 
マルチクラウドってそもそも何?いるの?いらないの? (20201005)
マルチクラウドってそもそも何?いるの?いらないの? (20201005)マルチクラウドってそもそも何?いるの?いらないの? (20201005)
マルチクラウドってそもそも何?いるの?いらないの? (20201005)Masanori KAMAYAMA
 
基調講演「データのグループウェア化」
基調講演「データのグループウェア化」基調講演「データのグループウェア化」
基調講演「データのグループウェア化」Cybozucommunity
 
2023フライウィール会社紹介_導入事例集.pdf
2023フライウィール会社紹介_導入事例集.pdf2023フライウィール会社紹介_導入事例集.pdf
2023フライウィール会社紹介_導入事例集.pdfFLYWHEEL Inc.
 
Microsoft Power Platformで組織に力を与えよう
Microsoft Power Platformで組織に力を与えようMicrosoft Power Platformで組織に力を与えよう
Microsoft Power Platformで組織に力を与えようTaiki Yoshida
 
Microsoft Azure で実現するAIとIoT最新情報
Microsoft Azure で実現するAIとIoT最新情報Microsoft Azure で実現するAIとIoT最新情報
Microsoft Azure で実現するAIとIoT最新情報Yasuhiro Kobayashi
 
Open Hybrid Cloudを検討すべき理由.pdf
Open Hybrid Cloudを検討すべき理由.pdfOpen Hybrid Cloudを検討すべき理由.pdf
Open Hybrid Cloudを検討すべき理由.pdfMasahiko Umeno
 
Azure Digital Twins 最新事例紹介 ( IoTビジネス共創ラボ 第16回勉強会 )
Azure Digital Twins 最新事例紹介 ( IoTビジネス共創ラボ 第16回勉強会 )Azure Digital Twins 最新事例紹介 ( IoTビジネス共創ラボ 第16回勉強会 )
Azure Digital Twins 最新事例紹介 ( IoTビジネス共創ラボ 第16回勉強会 )Takeshi Fukuhara
 
20160903predix_cognitiveservices
20160903predix_cognitiveservices20160903predix_cognitiveservices
20160903predix_cognitiveserviceszuhitoslide
 
3Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.13Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.1ITDORAKU
 
3Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.13Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.1CRI Japan, Inc.
 
要求開発アライアンス 9月定例会議
要求開発アライアンス 9月定例会議要求開発アライアンス 9月定例会議
要求開発アライアンス 9月定例会議Atsushi Takayasu
 

Ähnlich wie BigQueryを活用したPrivate DMPを作って使ってるお話 (20)

IOT and Lean Manifacturing
IOT and Lean ManifacturingIOT and Lean Manifacturing
IOT and Lean Manifacturing
 
3Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.13Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.1
 
New IP へのステップ その1) Fabric – すべての基本はファブリックにあり
New IP へのステップ その1) Fabric – すべての基本はファブリックにありNew IP へのステップ その1) Fabric – すべての基本はファブリックにあり
New IP へのステップ その1) Fabric – すべての基本はファブリックにあり
 
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~ ≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
 
JAWS-UG広島 - 2019-07-12 - 金融ビッグデータを守るリソースポリシー実例
JAWS-UG広島 - 2019-07-12 - 金融ビッグデータを守るリソースポリシー実例JAWS-UG広島 - 2019-07-12 - 金融ビッグデータを守るリソースポリシー実例
JAWS-UG広島 - 2019-07-12 - 金融ビッグデータを守るリソースポリシー実例
 
マルチクラウドってそもそも何?いるの?いらないの? (20201005)
マルチクラウドってそもそも何?いるの?いらないの? (20201005)マルチクラウドってそもそも何?いるの?いらないの? (20201005)
マルチクラウドってそもそも何?いるの?いらないの? (20201005)
 
基調講演「データのグループウェア化」
基調講演「データのグループウェア化」基調講演「データのグループウェア化」
基調講演「データのグループウェア化」
 
2023フライウィール会社紹介_導入事例集.pdf
2023フライウィール会社紹介_導入事例集.pdf2023フライウィール会社紹介_導入事例集.pdf
2023フライウィール会社紹介_導入事例集.pdf
 
Microsoft Power Platformで組織に力を与えよう
Microsoft Power Platformで組織に力を与えようMicrosoft Power Platformで組織に力を与えよう
Microsoft Power Platformで組織に力を与えよう
 
Microsoft Azure で実現するAIとIoT最新情報
Microsoft Azure で実現するAIとIoT最新情報Microsoft Azure で実現するAIとIoT最新情報
Microsoft Azure で実現するAIとIoT最新情報
 
Open Hybrid Cloudを検討すべき理由.pdf
Open Hybrid Cloudを検討すべき理由.pdfOpen Hybrid Cloudを検討すべき理由.pdf
Open Hybrid Cloudを検討すべき理由.pdf
 
Aws summit tokyo 2016
Aws summit tokyo 2016Aws summit tokyo 2016
Aws summit tokyo 2016
 
Cloud, why not?
Cloud, why not?Cloud, why not?
Cloud, why not?
 
テクノロジの隆盛
テクノロジの隆盛テクノロジの隆盛
テクノロジの隆盛
 
Azure Digital Twins 最新事例紹介 ( IoTビジネス共創ラボ 第16回勉強会 )
Azure Digital Twins 最新事例紹介 ( IoTビジネス共創ラボ 第16回勉強会 )Azure Digital Twins 最新事例紹介 ( IoTビジネス共創ラボ 第16回勉強会 )
Azure Digital Twins 最新事例紹介 ( IoTビジネス共創ラボ 第16回勉強会 )
 
Azure Digital Twins最新事例紹介
Azure Digital Twins最新事例紹介Azure Digital Twins最新事例紹介
Azure Digital Twins最新事例紹介
 
20160903predix_cognitiveservices
20160903predix_cognitiveservices20160903predix_cognitiveservices
20160903predix_cognitiveservices
 
3Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.13Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.1
 
3Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.13Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.1
 
要求開発アライアンス 9月定例会議
要求開発アライアンス 9月定例会議要求開発アライアンス 9月定例会議
要求開発アライアンス 9月定例会議
 

BigQueryを活用したPrivate DMPを作って使ってるお話

  • 1. BigQueryを活用したPrivate DMPを作って 使ってるお話 #bq_sushi tokyo #6 川田 雅人、木村 豊、黒澤 慎太郎、その他BQerの皆様サンクス ソニーネットワークコミュニケーションズ(株) クラウド・アプリ事業部門
  • 2. 2 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc. イントロダクション R&D、組み込み、新規事業企画、 IT営業、エンジニアなどを経たものの、 コアはソフトウェアエンジニアとして クラウド&データ歴6年 @ソニーネットワークコミュニケーションズ(SNC) 川田雅人 Masato Kawada 今回の内容は宣言通り 「今年のGC Nextのキーノートで 発表した内容の技術的Deep dive です。データ設計のキモ、比較、イケ てないところなど、言えなかったことをお 話しします!」 です。 キーノートと全然テイスト違います!
  • 3. 3 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc. SNC クラウド&アプリ事業とデータ活用 ソニーグループ製品・サービスへの クラウドサービス開発運用、 分析・グロース支援 アプリ&データを活用した メディア事業、デジタル配信事業
  • 4. 4 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc. なんでBigQuery使うの?
  • 5. 5 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc. 答え: データ分析・ビジネス活用の生産性をあげたかったから 2014 2015 2016 2017 year #records /month (billion) 1.8 7 12 PDCA Volume & Variety データが容量も種類も増 えているのに、予算や人 が増えない。。 Background Agility PDCAを速く回すには 分析官がストレスの少 ないデータ環境がいる To-Be No-system ops インフラ・システムを運用 するんじゃなくて データを運用する Democratization データドリブンビジネスを するために 分析官が満足するだけで なく、企画やエンジニアに も敷居をさげる Biz operator Data scientist Engineer 一番の理由は、分析官もエンジニアもやりたかったから!
  • 6. 6 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc. クラウドシステムアーキテクチャ (2016年初め) Device & application Frontend, Service provision Backend for big data ほとんどの要素はAWSで構成、Hadoop使い始めたのが2013年。 BigQueryをアドホック分析で使い始めていた
  • 7. 7 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc. アドホック分析環境から、商用データ分析基盤にするには アドホック環境要件 クエリ速く! 安く! Data scientist クエリエラーしてもねー ちょちょいとなんとかしちゃうよー ID管理 アクセスコントロール セキュリティ 利用者拡大しつつ、 性能・ガバナンス担保 分析結果をBI・外部 連携にすぐ自動化 理解しやすい、分析し やすいデータ構造 商用データ分析基盤要件 Biz operator Data scientist Engineer 連続稼動性、セキュリティ、使いやすさ、性能、 コスト管理、運用性、ユーザ多い。。。 GAP
  • 8. 8 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc. Hive on EMR Redshift BigQuery クエリ HiveQL PostgreSQL BigQuery SQL (その後Standard SQL) クエリ パフォーマンス 速い しっかりチューニングすれば とても速い とても速い (エラーが起きることもある…) コスト クラスタのインフラコスト クラスタのインフラコスト クエリのデータ使用量 安い!(ただしうまく使えば) システム運用 クラスタのお守りが必要 クラスタのお守りと十分なチュー ニングが必要 マネージドサービスとして ほぼ不要 (不安があったが、、、) セキュリティは 社内ルール的に 十分? 十分、Passed (VPC, ACL/IAM) 十分、Passed (VPC, ACL/IAM) 十分でない (IPアドレスが絞れない、 ACL/IAMがまだ不十分だった) 商用データ基盤で使うか、検証POCをしました in 2016 「BigQueryはセキュリティ要件以外は望ましい」  「使うデータを選んで使う」
  • 9. 9 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc. ETL Analysis Data Mart Private DMPアーキテクチャ: フルマネージドにできる Data Loader Data warehouse, Intermediate & Data mart Querying Framework Data studio Architecture: Private DMP SFTP API Source Stream & Bulk
  • 10. 10 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc. 工夫1: クエリ開発&実行フレームワーク Pull Req 分析結果をすぐに商用サービス・PDCAに適用する 簡単なチューニングは、SQLを少し書ける人でもできる! Querying Framework • SQL (+ UDF) • Schedule • Target output Review, Merge 定期実行 Biz operator 主任級?の 分析官・エンジニア Data scientist
  • 11. 11 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc. 工夫2: 階層的データ構成 Metadata SQL, csv, etc ETL Clean sing Raw Layer Intermediate layer Raw A Raw B Raw C Int A’ Int C’ Standard format Join metadata Int BC’ Int A“B” Int ABC” App / Mart layerApp 1 JOIN、補間、統計計算、K-匿名化 App 2 App 3 Sources ID matching and tokenize 1次抽出・変換・時系列管理 中間層のデータ設計で、系の性能・ROIを決める (ユーザ・用途に応じたテーブル、理解しやすいデータ、クエリの性能・コスト、アクセスコントロール)
  • 12. 12 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc. クラウドシステムアーキテクチャ (2017年初め) Device & application Frontend, Service provision Backend for big data データ要件に応じて、AWSとGCPを併用、となりました Data with strong security Private DMP Anonymized data 秘密の データ
  • 13. 13 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc. その後どうでしょう?
  • 14. 14 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc. しっかり使ってます! セグメントを作るためのクエリは約60本 (Bizの人がほぼチューンできちゃう) 他の分析PJで約100本 システム運用メンバ x >> X データ運用メンバ y < Y データ分析メンバ z << Z クエリするBizの人 0 < A No-opsは無理 だが システム運用から データ運用へ データ 民主化! まだ改善点が多いですが データ分析・運用にフォーカスしたチーム構成に 人が増えても XX万円溶けたってことはなくなったかな。。。 以前 今
  • 15. 15 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc. その他技術的なノウハウ Schema-lessなJSONの安定投入 コスト、アクセス権対策のため テーブルパーティション分割は細かめに id b c Error Column 1 “D" true 2 NULL false 3 Value of key b is invalid json_payload "{ "id": 1, "b": “D”, "c": true}" "{ "id": 2, "c": false}" “{ ”id“: 3, ”b“: 10, ”c“: false}” 不正 UDF(Null補間、データエラーチェック) JSON Raw table 遺産があり注意(全部変えるのは大変) ルールを作る ・古いもの レガシーSQL + 過去のテーブルモデル ・新しいもの スタンダードSQL + 日付や種類でパーティション &レイヤ構造  過ちが少ない、アクセスコントロールできる
  • 16. 16 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc. できちゃうからこそ、ご利用は計画的に 色んな人が使うDMP基盤なので DataStudioでコスト・データ量管理 生々しくてお見せできません Billing情報と利用情報から 全体見たり、権限つけたり、傾向見たり 高速・並列で出来ちゃうからこそ 使いすぎに注意! BQ police GKE Analysis BQ-Police Billing情報 XX万円! 学習データ BQとGKE を用いた分散機械学習基盤で コストを監視 超並列 分散学習
  • 17. 17 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc. 現場の声(素直でごめんなさい) Legacy SQLと Standard SQLを よく間違う (BigQuery Mate愛用) Legacy SQLが技術負債 に、、、いきなりアナウンス無し に動かなくなることが 日本のサポート が、、、 UDFすごく便利! 並列計算爆速! DataStudioはシンプ ルで無料でうれしい あまりも気軽すぎて分 析設計がおざなりにw 社内セキュリティ要件 の対応はこれから UDFの同時実行数 など上限には注意
  • 18. 18 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc.  BigQueryを商用で使うのは、(特に2016年では)チャレンジでした。  データを扱いやすくするため、柔軟性、コスト、変換、などトレードオフ要素を考えて行っ た一つのデータレイク設計事例として参考にしていただければ幸いです  グループ会社内でBigQueryを使う人が増えています • 実際はAWS/Azureを含めて増えているとは思います • 社内外で分け隔てなく仲間を作っていきたいです • Googleさんの支援を引き続きお願いします!  データはおいしく調理しつづけて行きたいです。社員(分析官)が喜びます。 まとめ
  • 19. 19 Cloud & App Business div. Copyright 2017 Sony Network Communications Inc. Happy Holidays!! Special thanks to 木村さん、鈴木さん 黒澤さん、楠本さん、 パートナーの皆様 (特に照井さん!) 高倉さん、増田さん G社にいっちゃったYさん

Hinweis der Redaktion

  1. 7年近く、クラウド初期からパブリッククラウドを使ってサービス開発。ソニーグループへの分析・グロース支援 加え、アプリ・・事業として、
  2. From Hive to Standard SQL Redshift tuning and sizing Managed seriice pay for query volume
  3. いま60本くらい走ってる。
  4. From Hive to Standard SQL Redshift tuning and sizing Managed seriice pay for query volume