Weitere ähnliche Inhalte
Ähnlich wie Cm re growth-devio-mtup11-sapporo-004 (20)
Mehr von Satoru Ishikawa (13)
Cm re growth-devio-mtup11-sapporo-004
- 2. 自己紹介
• メーカー系SE、VoIP関連ベンチャー企業を経て
• CMに2014/06 join
• 札幌出身、東京に8年
• Linux, Java, MySQL, Redshift
• 自称 何でも屋
• 当然 AWS好き
!
!
クラスメソッド株式会社
ソリューションアーキテクト
Ⓒ Classmethod, Inc.
2
- 4. アジェンダ
• AWSのビックデータ関連サービス
• 高性能・大容量なAmazon Redshift
• データ解析基盤の導入パターン
• データ分析の課題
• ETLプロセスの見直し
• まとめ
Ⓒ Classmethod, Inc.
4
- 6. AWSサービスの全体像
AWSサービスの全体像 ‒ 40以上のサービス
更にビックデータ関連の新サービスとして、AWS Lambda、
S3 Event Notification、RDS for Auroraが追加
Ⓒ Classmethod, Inc.
6
- 7. 注目の新サービス
AWS Lambda
AWS上のイベントをトリガーに、独自のコードを実行させるこ
とができるComputeサービス
S3へのPUT、Kinesisのストリーム入力、CLI呼び出しなどの
トリガ
LambdaはAWSサービスをより簡潔に連携させる手段を提供
フルマネージメントならDataPipeline、セルフマネジメントな
らAWS SDK
Ⓒ Classmethod, Inc.
Data Pipeline AWS SDK > >
7
- 8. 注目の新サービス
S3 Event Notification
S3でイベントが発生した際に、SNS/SQS/Lambdaへ通知呼
び出しする
EC2/Linux(inotify)やS3のポーリングが不要になる
Producer-Customerパターン適用して、他サービスと疎結合
でElasticな拡張が期待
バケット毎に設定可能
Ⓒ Classmethod, Inc.
8
- 9. 注目の新サービス
Amazon RDS for Aurora
クラウドのために再発明したRDB..
(まだ本物を見ていないのでわかりません…)
Readはかなり速そうだが、DWH用途ではRedshiftの方が”Cost
Effective”だろう
RedshiftはPrimaryKeyは名ばかり、インデックスキーは
sortkeyのみ、非冗長化のシングルAZなので、要件によっては
Auroraがマッチする可能性がある
一般的にビックデータ関連は結果データの永続化よりも
Ⓒ Classmethod, Inc.
スケールアウトに重点が置かれています。
9
- 14. 例.収集した売上データの活用 - BI
Ⓒ Classmethod, Inc.
14
DB
データ
(オリジナル) ETL
S3 EC2/EMR
データ
店舗(ETL済み)
Redshift
EC2
データ
(ETL済み)
S3
分析
Tableau
マート
Redshift
会計データ
販売データ
生産管理データ
在庫管理データ
購買管理データ
eコマース・SNS等
- 15. 例.収集したデータの活用 - DMP
Ⓒ Classmethod, Inc.
EMR
15
ログ
コレクタ
データ
(オリジナル)
S3
IoT
検索ワード
SNSログ
投票データ
ウェブコング
株式データ
医療情報
ETL
Redshift
データ
(ETL済み)
データ
(ETL済み)
S3
データ
(オリジナル)
ETL
EMR
データ
(ETL済み)
S3
データ
(ETL済み)
DynamoDB
分析データ
販売ビジネス
レポート
データ取得
WebAPI
- 17. 例.収集した売上データの活用 - BI
Ⓒ Classmethod, Inc.
17
DB
データ
(オリジナル) ETL
S3 EC2/EMR
データ
店舗(ETL済み)
Redshift
EC2
データ
(ETL済み)
S3
分析
Tableau
マート
Redshift
会計データ
販売データ
生産管理データ
在庫管理データ
購買管理データ
eコマース・SNS等
ETLが全体の作業7割を
占めると言われている
- 21. ETLツール - Alteryx
データの入出力にS3やRedshiftが指定可能
予測分析やバスケット分析といった高度な分析が可能
分析結果を直接BIツール(Tableau)のファイルに出力できる
Ⓒ Classmethod, Inc.
21
- 23. まとめ
• オリジナル・中間データはS3に保存する
• オリジナルデータのクレンジングはEC2やEMR
• 処理されたデータはRedshiftに格納・利用すること
でBIツールやETLツールと連携
• Redshiftはデータ連結、一次集計、マート作成を高
速に生成
• ETLのオーケストレーションはData Pipeline、デー
タサイエンティストに求められる高度な分析は
Alteryxを始めとするETLツールを活用
Ⓒ Classmethod, Inc.
23