More Related Content
Similar to 【IVS CTO Night & Day】AWSにおけるビッグデータ活用 (20)
More from Amazon Web Services Japan (20)
【IVS CTO Night & Day】AWSにおけるビッグデータ活用
- 4. © 2017, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
ビッグデータの特性と活⽤の⼼構え
4
- 11. Amazon S3
Data Lake
Amazon Kinesis
Streams & Firehose
Hadoop / Spark
Amazon Redshift
Data Warehouse
Amazon DynamoDB & ElastiCache
NoSQL DB & Redis
Relational Database
Amazon EMR
Amazon Aurora
Amazon Machine Learning
Machine Learning
Any Open Source Tool
of Choice on EC2
DataSources
Amazon S3を中⼼としたデータレイク
Clusterless SQL Query
Amazon Athena
TransactionalData
- 12. Amazon S3
Data Lake
Amazon Kinesis
Streams & Firehose
Hadoop / Spark
Amazon Redshift
Data Warehouse
Amazon DynamoDB & ElastiCache
NoSQL DB & Redis
Relational Database
Amazon EMR
Amazon Aurora
Amazon Machine Learning
Machine Learning
Any Open Source Tool
of Choice on EC2
DataSources
Clusterless SQL Query
Amazon Athena
TransactionalData
Amazon S3を中⼼としたデータレイク
すべてのデータを1ヶ所に集めて保存
データストアとデータ処理の分離
⽤途に応じた適切な処理⽅法の選択
- 17. AWS IoT
• 特徴 (https://aws.amazon.com/jp/iot/)
• デバイスとクラウドの双⽅向コミュニ
ケーション
• HTTP、MQTT、Websocketに対応
• SQLベースのルールとアクション定義
• AWSサービスとのシームレスな連携
• デバイス向けのSDK
• 価格体系 (https://aws.amazon.com/jp/iot/pricing/)
• 100万メッセージあたり$8(⽇本リー
ジョン)
• 無料利⽤枠利⽤は25万メッセージ/⽉
を(1年間)
簡単で安全なクラウドへのデバイス接続サービス
様々な産業での利⽤
アーキテクチャ図
- 19. Amazon EMR
• 低い運⽤コストでHadoopを使⽤
• ジョブに応じてクラスタのリサイズが可能
• S3上のデータを直接読み込んでジョブを実
⾏し,結果をS3に吐き出せる
• Spark, Hive, Presto, Hbaseなどさまざま
なHadoopエコシステムを利⽤可能
• ⼤規模データのETLや機械学習処理などの
ワークロードに適している
フルマネージドでスケーラブルなHadoopクラスタ
- 20. AWS Glue
• フルマネージドのデータカタログ + ETL サービス
• さまざまなデータソースをカタログとして
管理して,バージョン管理やスキーマ更新を実施
• GUI 上で作成した ETL 処理フローから PySpark
コードが⽣成され,必要に応じて加⼯編集するこ
とも可能
• S3 に取り込んだログおよび RDS に格納された顧
客データに対して,前処理を⾏なって Redshift に
格納するようなワークロードに最適
データソースの把握・準備・データ格納を簡単で確実に
- 24. Amazon Machine Learning
フルマネージドの予測モデル & API を提供
24
• 線形回帰,2項ロジスティック回帰,多項
ロジスティック回帰の3種類のアルゴリズ
ムをサポート
• Cross Validation や正則化,精度評価ま
で含んでおり,簡単にモデル構築が可能
• 構築したモデルを使って,新しいデータを
API経由で予測可能
• お⼿軽にシンプルな予測モデルをシステム
に組み込んで利⽤できる
- 28. © 2017, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Redshift
- 30. MPPとシェアードナッシングがスケールアウトの鍵
MPP : Massive Parallel Processing
• 1つのタスクを複数のノードで分散して実⾏する仕組み
• Redshiftではリーダーノードがタスクをコンピュートノードに分
散して実⾏する
• ノードを追加する(スケールアウト)でパフォーマンス向上可能
シェアードナッシング
• ディスクをノードで共有しない構成
• ディスクを共有するとノード数が増えた時にボトルネックになる
ため、それを回避
• ノードとディスクがセットで増えていく
- 38. 1 2
...
N
Amazon Redshift Spectrum
•RedshiftからS3上に置いたファイルを外部テーブ
ルとして定義し、クエリ可能に
•ローカルディスク上のデータと組み合わせたSQL
が実⾏可能
•多様なファイルフォーマットに対応
•バージニア北部、オレゴン、オハイオリージョン
で利⽤可能
•価格は Redshift 料⾦に加えて,S3 データスキャ
ン量に応じて $5/TB がかかる S3
各種データ
(CSV,Parquet等)
Spectrum層
- 45. dash:Connected Vehicle by dash device
•Drive Smarter
•Save Money
•Take Control
•Drive Green
•Have Fun with
it
•Engine Light
- 46. Copyright(c)2016 PARCO CO.,LTD. All Rights Reserved
24
新しい取り組み IoT(Internet of Things)
各種センサー、Wi-Fiデータの分析活用
➢イベント来場者の属性を把握
➢アプリユーザーの館内での行動を把握
➢店舗屋上に温度・降雨検知センサー
設置し、気温・降雨データを取得
来店時のお客様行動の分析・可視化
による購買促進施策に活用
パルコさま:「可視化」された事実からPDCA
IoTを使った新しいデータの活⽤⽅法のチャレンジ
カメラを使った客層分析
気温・降⾬センサーを
使った売上分析
チャレンジ
- 49. スシローさま: 回転寿司レストラン
機械学習を活⽤した “待ち時間ほぼゼロ” の実現
出所:⽇経ビジネスオンライン http://business.nikkeibp.co.jp/atcl/report/15/062600011/070100004/?P=1
“スマートフォン向けアプリ「スシローアプリ」を活⽤した
チェックイン機能を、店頭の整理券発券システムに搭載。ス
シローの基幹システムとも連携しており、アプリ利⽤者が何
⼈で利⽤したか(組⼈数)、利⽤⾦額はどれほどか、といっ
たデータの分析が可能。スシローはこうしたデータを蓄積し
た上で、CRM(顧客関係管理)や広告配信に⽣かすことを⽬
指す。”
課題:混雑に起因した待ち時間増加による顧客離反
ソリューション:アプリ経由で来店予約による待ち時間
ほぼゼロの実現
49
- 52. Here.com さま
世界最⼤⼿の地図企業
⾃動運転に必要なHD Live Mapの
⽣成基盤にAWSを利⽤
• ⾞載センサーデータの収集
• 分析(道路状況の変化等)
• ⾞へのLive データ配信
3PB以上のデータを収集・保存
• 5年以内に150PBを⾒込む
https://www.youtube.com/watch?v=Jvg_SsNyR00&feature=youtu.be&t=3544
http://360.here.com/2016/04/20/the-role-of-amazon-web-services-in-autonomous-driving/
- 53. © 2017, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Elastic MapReduce
53
- 54. Amazon EMR
• 低い運⽤コストでHadoopを使⽤
• ジョブに応じてクラスタのリサイズが可能
• S3上のデータを直接読み込んでジョブを実
⾏し,結果をS3に吐き出せる
• Spark, Hive, Presto, Hbaseなどさまざま
なHadoopエコシステムを利⽤可能
• ⼤規模データのETLや機械学習処理などの
ワークロードに適している
フルマネージドでスケーラブルなHadoopクラスタ
- 56. Task Node
Task Instance Group
Amazon EMRのアーキテクチャ
security group
security group
Master Node
Master Instance Group
Amazon
S3
Amazon
DynamoDB
Amazon
Kinesis
Core Node
Core Instance Group
HDFS HDFS
HDFS HDFS
Task Node
Task Instance Group
スレーブ群を
管理
HDFS
アクセス
AWSサービス
アクセス
- 58. EMRFS: Amazon S3 を HDFS のように扱う
• 計算資源とストレージを分離できる
• クラスタのシャットダウンが可能
• クラスタを消してもデータをロストしない
• 複数クラスタ間でデータ共有が簡単
• クラスタのバージョンアップ検証が並⾏可能
• S3 によるデータの⾼い耐久性
- 59. Amazon EMR の機能: インスタンスフリート
スポットインスタンスが,より便利に
使えるようになる機能
複数のインスタンスタイプを指定して
起動することで,最適なスポットイン
スタンスの組み合わせを⾃動的に選択
してクラスタを⽴ち上げる
また起動時に,1-6 時間の範囲で動作
時間を指定することができるため,指
定時間内でのジョブの実⾏を保証する
ことができる
59 https://aws.amazon.com/jp/blogs/news/new-amazon-emr-instance-fleets/
- 60. © 2017, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS Glue
- 62. AWS Glue – 全体像
データソースをクロールし、
メタデータを取得
メタデータは
データカタログで管理
メタデータを元に
ジョブを作成(PySpark)
ジョブはサーバレスな環境
で実⾏される
- 66. Amazon EMRとAWS Glue
Amazon EMR AWS Glue
用途 汎用Hadoop/Spark環境 ETL処理に特化
(Sparkベース)
スケールアウト 可能(ユーザ設計) 可能(パラメータ指定)
サーバ管理 数クリックで指定した環境が
準備される
サーバ管理が不要
(サーバレス)
データレイク(S3)への透
過的なアクセス
可能 可能
プログラミング環境 Hadoopエコシステム上の多
様なアプリケーション
PySparkでETL処理をカス
タマイズ
- 71. Amazon S3 Selectと
Amazon Glacier Selectを発表
• S3 Select(プレビュー):ファイル全体をダウ
ンロードせず必要なデータのみをシンプルな
SQLでクエリ可能に。最⼤400%の性能改善
– Lambdaファンクションから利⽤すると便利。Athenaや
Redshift/EMRがS3 Selectをサポート予定
– プレビュー期間は無料で利⽤でき⾮圧縮のCSV/JSONをサポー
ト。暗号化ファイルは現時点では⾮対応
• Glacier Select(⼀般利⽤開始):Glacierにアー
カイブされたデータにもS3 Selectと同様に直
接クエリを発⾏可能に。AWS Glueとの連携も
– スキャンしたデータ量(GB)、応答データ量(GB)、リクエスト
数にで課⾦。データ取り出しスピードによって単価が異なる
- 73. 数多くの動画ストリームのインジェストを実現する
Amazon Kinesis Video Streamsを発表
• 数百万のカメラデバイスからアップロードされ
る動画ストリームや、時系列データを容易に取
り扱うことができるマネージドサービス
• 送信側はProducer SDKを利⽤してKinesis
Video Streamsにデータを送信する必要がある
• 料⾦体系はデータ量依存。Streamに対する投
⼊量と読出量、保存量に対して課⾦される
• 東京、バージニア、オレゴン、アイルランド、
フランクフルトのリージョンで利⽤可能