More Related Content
Similar to クラウド上のデータ活用デザインパターン (20)
More from Amazon Web Services Japan (20)
クラウド上のデータ活用デザインパターン
- 19. データ活用に適した AWS の特徴
19
Agility: 試行錯誤を簡単に.
大規模でもスモールスタートで
も同じようにデータ処理
Scalability: キャパシティや
機能制約を気にすることなく
,いつでもジョブを実行
Get to Insights Faster: デー
タの前処理ではなく,データ分
析にフォーカスできるように
Broadest and Deepest
Capabilities: 90以上のサー
ビスを活用して,あらゆるワー
クロードでデータ処理
Low Cost: 従量課金制なの
で,必要なコストは使ったぶ
んだけ払えば良い
Data Migrations Made
Easy: ペタバイトスケールのデ
ータまで素早く効率的にクラウ
ドに移行可能
- 20. Amazon S3
Data Lake
Batch Analytics
Amazon Kinesis
Streams & Firehose
Hadoop / Spark
Amazon Redshift
Data Warehouse
Amazon DynamoDB & ElastiCache
NoSQL DB & Redis
Relational Database
Amazon EMR
Amazon Aurora
Amazon Machine Learning
Machine Learning
Any Open Source Tool
of Choice on EC2
DataSources
Amazon S3を中心としたデータレイク
Clusterless SQL Query
Amazon Athena
TransactionalData
- 21. Amazon S3
Data Lake
Batch Analytics
Amazon Kinesis
Streams & Firehose
Hadoop / Spark
Amazon Redshift
Data Warehouse
Amazon DynamoDB & ElastiCache
NoSQL DB & Redis
Relational Database
Amazon EMR
Amazon Aurora
Amazon Machine Learning
Machine Learning
Any Open Source Tool
of Choice on EC2
DataSources
Amazon S3を中心としたデータレイク
Clusterless SQL Query
Amazon Athena
TransactionalData
すべてのデータを1ヶ所に集めて保存
データストアとデータ処理の分離
用途に応じた適切な処理方法の選択
- 24. Amazon EMR
• 運用コストでHadoopを使用
• ジョブに応じてクラスタのリサイズが可能
• S3上のデータを直接読み込んでジョブを
実行し,結果をS3に吐き出せる
• Spark, Hive, Presto, Hbaseなどさまざま
なHadoopエコシステムを利用可能
• Jupyter や Rstudio 等必要なソフトウェ
アを入れた形で起動可能
• 大規模データのETLや機械学習処理などの
ワークロードに適している
フルマネージドでスケーラブルなHadoopクラスタ
- 27. Amazon Redshift Spectrum
Redshift から S3 上のデータに直接クエリできる拡張機能
Leader node
Compute nodes
SQL Client / BI Tools
JDBC / ODBC Driver
• Redshift クラスタから,直接 S3 上
のデータにクエリを投げられる
• Redshift 内のデータと JOIN するこ
とも可能
• 利用頻度の低いコールドデータを S3
に置いて Spectrum 経由でアクセス
し,ホットデータのみ Redshift 内に
ロードしておく
• 複数の Redshift クラスタから同じ
S3 上のデータを読み込む
- 28. P2 インスタンス + Deep Learning AMI
• インスタンスあたり最大 16個の GPU (NVIDIA Tesla K80)を使う
ことで,ディープラーニングのモデル構築にかかる時間を大幅に短
縮可能
• Deep Learning AMI によって,主要フレームワークがすべてプリ
インストールされた状態で,インスタンスが立ち上がる
28
Instance
Name
GPU
Count
Memory GPU
Memory
Network
Performance
P2.xlarge 1 61GiB 12 GiB High
P2.8xlarge 8 488GiB 96 GiB 10 Gigabit
P2.16xlarge 16 732GiB 192 GiB 20 Gigabit
- 32. BI パイプラインパターン
32
• Redshift および Athena で S3 上のさまざまなデータを可視化
• 既存のデータウェアハウス / BI 環境を活用
• 必要なデータはすぐにアクセスでき,簡単に可視化できる環境
S3 S3EMRData
Source
Redshift QuickSight
- 33. BI パイプラインパターン
33
• Redshift および Athena で S3 上のさまざまなデータを可視化
• 既存のデータウェアハウス / BI 環境を活用
• 必要なデータはすぐにアクセスでき,簡単に可視化できる環境
• Athena で生データにも直接アクセス
S3 S3EMRData
Source
Redshift QuickSight
Athena
- 39. FINRA さま
S3 上のデータに対して複数の EMR で分析を実施
https://www.slideshare.net/AmazonWebServices/bdt305-amazon-emr-deep-dive-and-best-practices
- 41. NASDAQ さま
ホットデータは Redshift / コールドデータは Presto
https://www.slideshare.net/AmazonWebServices/bdt314-a-big-data-analytics-app-on-amazon-emr-amazon-redshift
- 46. マルチツールパターン
46
• Zeppelin / Jupyter / Rstudio 等で必要なデータを深く分析
• 用途に応じて柔軟にクラスタサイズを変更して,マシンリソースを確保
• モデル作成に必要なデータは,生データまでさかのぼって取れるように
S3 S3EMRData Source
EMR
EMR
P2 instance
- 58. 日本経済新聞社さまの AI 記者
• 決算サマリーを自動生成して配信
• 2017/1/25-5/26 で 6787 サマリーを生成,1-2 分で記事を公開
58 https://d0.awsstatic.com/events/jp/2017/summit/slide/D4T5-3.pdf
- 60. 日本経済新聞社さまの AI 記者
• 編集現場では,仕事を取られるという意識はなく,サポートとして
の期待が大きい
• 速報や定型業務を AI に任せて,より付加価値の高い業務に集中
60