【IVS CTO Night & Day】AWSにおけるビッグデータ活用

AWSにおけるビッグデータ活⽤

⾃⼰紹介
桑野章弘(くわのあきひろ)
ソリューションアーキテクト
主にメディア系のお客様を担当しております。
元渋⾕のインフラエンジニア
好きなAWSのサービス：ElastiCache, Route53
好きなデータストア：MongoDB

Agenda
ビッグデータの特性と活⽤の⼼構え
AWSを使ったビッグデータ活⽤
事例
AWS を活⽤した技術課題の解決
• ログ収集のベストプラクティス
• どのように ETL を⾏うか
• アジャイルな分析クエリの実⾏
3

© 2017, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
ビッグデータの特性と活⽤の⼼構え
4

あらゆるものからデータが取れるように
IoTデバイスやスマートフォン等から⼤量のログデー
タが得られるようになってきた
⼤量データを扱うソフトウェア技術も⾶躍的に発展し
てきている
今後も扱うデータ量は増え続けていき，
分析できることの幅も広がっていく
5

6
今あるデータだけをみるのではなく
新しいデータも活⽤していけるように
広がりを持った仕組みづくり

データ活⽤サイクルの特徴
活⽤して初めてみえてくることがたくさんある
試⾏錯誤を前提として，仮説検証サイクルを⾼速に回せる環境
づくり
ときには新しいデータを取得したり，前処理したり，というと
ころまでさかのぼる必要もある
活⽤法に合わせた適切な⼿法が選択できる必要性
7
最初から分析内容がすべてわかっていることはありえない

データ活⽤は継続的な改善サイクル
いろいろな試⾏錯誤して
どんどん新しいものを作っていく

AWSを使ったビッグデータ活⽤
9

ビッグデータ活⽤に適したAWSの特徴
10

Amazon S3
Data Lake
Amazon Kinesis
Streams & Firehose
Hadoop / Spark
Amazon Redshift
Data Warehouse
Amazon DynamoDB & ElastiCache
NoSQL DB & Redis
Relational Database
Amazon EMR
Amazon Aurora
Amazon Machine Learning
Machine Learning
Any Open Source Tool
of Choice on EC2
DataSources
Amazon S3を中⼼としたデータレイク
Clusterless SQL Query
Amazon Athena
TransactionalData

Amazon S3
Data Lake
Amazon Kinesis
Streams & Firehose
Hadoop / Spark
Amazon Redshift
Data Warehouse
Amazon DynamoDB & ElastiCache
NoSQL DB & Redis
Relational Database
Amazon EMR
Amazon Aurora
Machine Learning
Any Open Source Tool
of Choice on EC2
DataSources
Clusterless SQL Query
Amazon Athena
TransactionalData
Amazon S3を中⼼としたデータレイク
すべてのデータを1ヶ所に集めて保存
データストアとデータ処理の分離
⽤途に応じた適切な処理⽅法の選択

AWSのビッグデータサービス群
収集前処理分析活用
Kinesis
S3
EMR
Glue
EMR
Redshift
Amazon ML
Athena
QuickSight
Amazon ESIoT

AWSのアナリティクスサービス群
Kinesis EMR
Glue
EMR
Redshift
Amazon ML
Athena
QuickSight
Amazon ESS3 IoT

Amazon S3
⾼い耐久性と可⽤性を持つスケーラブルなオブジェクトストレージ
• 99.999999999%の耐久性と，99.99%の
可⽤性を持つ設計
• 暗号化技術（SSE, CSE）にも対応し，安
全にデータを保存
• 利⽤したデータのぶんだけ従量課⾦
• 多くのAWSにとって仮想的なデータレイヤ

Amazon Kinesis
Amazon Kinesis
Streams
ストリームデータを
処理・分析するための
データを格納
Amazon Kinesis
Firehose
ストリームデータを
S3, Redshift, ESに
簡単にロード
Amazon Kinesis
Analytics
ストリーミングデータを
標準的なSQLクエリで
簡単に分析
ストリームデータを収集・処理・配信するためのマネージドサービス群

AWS IoT
• 特徴 (https://aws.amazon.com/jp/iot/)
• デバイスとクラウドの双⽅向コミュニ
ケーション
• HTTP、MQTT、Websocketに対応
• SQLベースのルールとアクション定義
• AWSサービスとのシームレスな連携
• デバイス向けのSDK
• 価格体系 (https://aws.amazon.com/jp/iot/pricing/)
• 100万メッセージあたり$8(⽇本リー
ジョン)
• 無料利⽤枠利⽤は25万メッセージ/⽉
を(1年間)
簡単で安全なクラウドへのデバイス接続サービス
様々な産業での利⽤
アーキテクチャ図

18
Kinesis EMR
Glue
EMR
Redshift
Amazon ML
Athena
QuickSight
Amazon ESS3 IoT

Amazon EMR
• 低い運⽤コストでHadoopを使⽤
• ジョブに応じてクラスタのリサイズが可能
• S3上のデータを直接読み込んでジョブを実
⾏し，結果をS3に吐き出せる
• Spark, Hive, Presto, Hbaseなどさまざま
なHadoopエコシステムを利⽤可能
• ⼤規模データのETLや機械学習処理などの
ワークロードに適している
フルマネージドでスケーラブルなHadoopクラスタ

AWS Glue
• フルマネージドのデータカタログ + ETL サービス
• さまざまなデータソースをカタログとして
管理して，バージョン管理やスキーマ更新を実施
• GUI 上で作成した ETL 処理フローから PySpark
コードが⽣成され，必要に応じて加⼯編集するこ
とも可能
• S3 に取り込んだログおよび RDS に格納された顧
客データに対して，前処理を⾏なって Redshift に
格納するようなワークロードに最適
データソースの把握・準備・データ格納を簡単で確実に

21
Kinesis EMR
Glue
EMR
Redshift
Amazon ML
Athena
QuickSight
Amazon ESS3 IoT

Amazon Redshift
• MPPアーキテクチャとカラムナの
データ格納により，スケーラブルで
⾼速なクエリが実⾏可能
• データストアを最⼤2PBまで拡張
• JDBC/ODBC経由でさまざまなBI
ツールと連携
• Spectrum を使うことで，S3 上の
データに対して直接クエリ可能に
• BIツールと連携して，データウェア
ハウスとして分析の中⼼に
フルマネージドでスケーラブルなデータウェアハウスサービス
Leader node
Compute nodes
SQL Client / BI Tools
JDBC / ODBC Driver

Amazon Athena
23
• フルマネージドで運⽤コストがかからない
• Prestoベースで標準SQLが実⾏可能
• ⾛らせたクエリのぶんだけ従量課⾦
• S3に貯めたWebサーバのログに対してク
エリを投げてサービス障害の原因を探った
り，⼿軽にアドホック分析をおこなう
フルマネージドでS3上のデータに対してSQLクエリを実⾏

フルマネージドの予測モデル & API を提供
24
• 線形回帰，2項ロジスティック回帰，多項
ロジスティック回帰の3種類のアルゴリズ
ムをサポート
• Cross Validation や正則化，精度評価ま
で含んでおり，簡単にモデル構築が可能
• 構築したモデルを使って，新しいデータを
API経由で予測可能
• お⼿軽にシンプルな予測モデルをシステム
に組み込んで利⽤できる

25
Kinesis EMR
Glue
EMR
Redshift
Amazon ML
Athena
QuickSight
Amazon ESS3 IoT

Amazon QuickSight
フルマネージドで使いやすいBIサービス
• ハイパフォーマンスなデータ処理エンジン
SPICEを持ち，⾼速に分析が可能
• Redshift, RDS, S3, Athena, Salesforce,
ローカルファイルなどさまざまなソースに
接続できる
• フルマネージドでサーバの運⽤作業が不要
• AWSのデータソースをすばやく可視化し
て，組織で共有

Amazon Elasticsearch Service
27
フルマネージドで信頼性の⾼いスケーラブルなElasticsearchサービス
• Elasticsearch クラスタを数分で⽴ち上げ
られ，APIコール1回で簡単にスケール
• Logstash と Kibana が統合されており，
Kinesis などから受け取った時系列データ
を即座に可視化
• ストリームデータをお⼿軽にモニタリング
する⽤途に最適

Amazon Redshift

Amazon Redshiftの概要
• クラウド上のDWH
• 数クリックで起動
• 使った分だけの⽀払い
• ⾼いパフォーマンス
• ハイ・スケーラビリティ
• ⾼い汎⽤性
• PostgreSQL互換のSQL
• 多くのBIツールがサポート

MPPとシェアードナッシングがスケールアウトの鍵
MPP : Massive Parallel Processing
• １つのタスクを複数のノードで分散して実⾏する仕組み
• Redshiftではリーダーノードがタスクをコンピュートノードに分
散して実⾏する
• ノードを追加する（スケールアウト）でパフォーマンス向上可能
シェアードナッシング
• ディスクをノードで共有しない構成
• ディスクを共有するとノード数が増えた時にボトルネックになる
ため、それを回避
• ノードとディスクがセットで増えていく

Redshiftの構成①
SELECT *
FROM lineitem;
リーダーノードがクライア
ントからSQLを受け取る
CPU CPU CPU CPU CPU CPU
Leaderノード
Computeノード
１つの表を各ノード
のストレージに分散
して保存（シェアー
ドナッシング）

Redshiftの構成②
SELECT *
FROM lineitem;
SQLをC⾔語に変換後、
コンパイル。コードを
コンピュートノードへ
配信
CPU CPU CPU CPU CPU CPU
Leaderノード
Computeノード
スライス＝
メモリとディスクを
ノード内で分割した論
理的な処理単位
コンピュートノードの追
加でパフォーマンス向上
（スケールアウト）

Redshiftの特徴と傾向
ノード増加によるスケールアウト
• スケールアウトのボトルネックはノード間通信
• 効率を上げる＝ノード間通信を減らす
実⾏⽅法
• SQLはC＋＋に変換、コンパイル、配布して実⾏される
• 実⾏済のコードはキャッシュされる
＝＞SQL最初の実⾏には＋数秒余分に掛かる

ノードタイプ
SSDベースのDCとHDDベースのDSから選択
• データは圧縮されて格納されるため、ストレージ総量より多くのデータが格納可能
最⼤128ノード：2 PByteまで拡張可能
dc1.largeとds2.xlargeは、１ノード~32ノード構成が可能
• １ノード構成にした場合、LeaderノードとComputeノードが同じインスタンス上で稼働する構成になります
dc1.8xlargeとds2.8xlargeは、2ノード~128ノード構成が可能
※価格は東京リージョンにおいて
2017年8月時点のものです
https://aws.amazon.com/jp/redshift/pricing/

フルマネージドサービス
設計・構築・運⽤の⼿間を削減
数クリックで起動
１時間単位の費⽤
ノード数やタイプは後から変更可能
バックアップやモニタリング機能を内蔵
• GUI（マネジメントコンソール）
• API経由で操作も可能
パッチ適⽤も⾃動的
• メンテナンスウィンドウでパッチの時間帯を指定可能

Redshiftが向く⽤途
特化型のデータベースのため、適した⽤途に使うことでパ
フォーマンスを発揮します
Redshiftに向くワークロード
• 巨⼤なデータ・セット（数百GB〜ペタバイト）
• １つ１つのSQLが複雑だが、同時実⾏SQLは少ない
• データの更新は⼀括導⼊
ユースケース
• データウェアハウス（DWH）
• ユーザがクエリーを作成する（⾃由クエリー）（BI等）

Redshiftの特徴を⽣かせないユースケース
SQLの並列実⾏数が多い（※同時接続数ではなく同時実⾏数）
• RDS（MySQL ,PostgreSQL, Oracle, SQL Server)を検討
極めて短いレーテンシが必要なケース
• ElastiCache (インメモリDB)やRDSを検討
ランダム、かつパラレルな更新アクセス
• RDSもしくはDynamoDB (NoSQL)を検討
巨⼤なデータを格納するが集計等はしない
• DynamoDBや⼤きいインスタンスのRDSを検討

1 2
...
N
Amazon Redshift Spectrum
•RedshiftからS3上に置いたファイルを外部テーブ
ルとして定義し、クエリ可能に
•ローカルディスク上のデータと組み合わせたSQL
が実⾏可能
•多様なファイルフォーマットに対応
•バージニア北部、オレゴン、オハイオリージョン
で利⽤可能
•価格は Redshift 料⾦に加えて，S3 データスキャ
ン量に応じて $5/TB がかかる S3
各種データ
（CSV，Parquet等）
Spectrum層

Amazon S3上のデータに直接クエリできるメリット
Amazon Redshiftのクエリがそのまま活⽤できる
ローディングにかかる⼿間や時間が不要。分析までの時間を最短に
ファイルフォーマットを変更せずクエリーを実⾏可能
Amazon Redshiftクラスター上のデータとS3上のデータをジョイン
１つのS3データに複数のAmazon Redshiftクラスターから共有アクセス
可能（可⽤性の向上、ワークロードの分散）

ユースケース (1)
定期的に追加されるFACTデータをS3に置く
FACTをS3に置き、ディメンジョンを
Redshiftローカルに置く
FACTへの定期的な追加が発⽣しても
ロードせずにクエリ可能
VACUUM や UNLOAD，Deep Copy
などが不要なため運⽤コストが⾮常
に低くなる
⽇付等で効果的なパーティショニン
グが実現可能
FACT ディメン
ジョン
ディメン
ジョン
ディメン
ジョン
ディメン
ジョン
ディメン
ジョン
ディメン
ジョン

アクセス頻度が低いデータをS3に
頻繁にアクセスされる直近のデータを
ローカルに置き、あまりアクセスされな
いデータはS3に置く
直近データの保存に必要なだけのノード
数を維持しながら、多くのデータを分析
対象にできる
※Spectrum層への指⽰はスライス数に
依存するため、データサイズと⽐較して
極端に少ないノード数の構成は推奨され
ません
Amazon
Redshift
...
1 2 3 4 N
2012年
直近データ
2016年～2017年
2013年 2014年 2015年

S3上のデータを複数Redshiftクラスターで共有
S3上のデータを複数のRedshift
クラスターから共有
１）ジョブ連携を容易に実現
２）ワークロードが分散され、
システム全体での同時実⾏性能
を向上
３）Redshiftクラスターを別AZ
に配置して可⽤性の向上を実現
共有データ

まとめ：Redshift概要
MPP型でDWH⽤途に特化したデータベース
スケールアウトで拡張
⾼速な読み取りを可能にする仕組み
• カラムナ、圧縮、ゾーンマップ

dash：Connected Vehicle by dash device
•Drive Smarter
•Save Money
•Take Control
•Drive Green
•Have Fun with
it
•Engine Light

Copyright(c)2016 PARCO CO.,LTD. All Rights Reserved
24
新しい取り組み IoT（Internet of Things）
各種センサー、Wi-Fiデータの分析活用
➢イベント来場者の属性を把握
➢アプリユーザーの館内での行動を把握
➢店舗屋上に温度・降雨検知センサー 
設置し、気温・降雨データを取得
来店時のお客様行動の分析・可視化
による購買促進施策に活用
パルコさま：「可視化」された事実からPDCA
IoTを使った新しいデータの活⽤⽅法のチャレンジ
カメラを使った客層分析
気温・降⾬センサーを
使った売上分析
チャレンジ

事例 : 嘉穂無線株式会社(グッデイ本部)さま
ビーコンを使った⼈の動線把握
お客様及び従業員の⽅の動線を「可視化」することにより、例えば、１⽇のうち平均約
1 - 2時間は、バックヤードでの作業（発注、倉庫作業など）についやしていたことがわ
かり、バックヤード作業を効率化することで、従業員が売り場に⽴つ時間を増やし、お
客様対応に時間を使うことで売上増（5〜10%）に繋がった。
AWS Cloud Roadshow福岡 2015 基調講演資料抜粋

スシローさま: 回転寿司レストラン
380店舗の寿司⽫についたセンサーから送られるストリーム
データを収集・分析し⾷材廃棄の削減、オペレーション改善
収集加⼯分析
蓄積
デ
タ
イ
ン
サ
イ
ト
48

スシローさま: 回転寿司レストラン
機械学習を活⽤した “待ち時間ほぼゼロ” の実現
出所：⽇経ビジネスオンライン http://business.nikkeibp.co.jp/atcl/report/15/062600011/070100004/?P=1
“スマートフォン向けアプリ「スシローアプリ」を活⽤した
チェックイン機能を、店頭の整理券発券システムに搭載。ス
シローの基幹システムとも連携しており、アプリ利⽤者が何
⼈で利⽤したか（組⼈数）、利⽤⾦額はどれほどか、といっ
たデータの分析が可能。スシローはこうしたデータを蓄積し
た上で、CRM（顧客関係管理）や広告配信に⽣かすことを⽬
指す。”
課題：混雑に起因した待ち時間増加による顧客離反
ソリューション：アプリ経由で来店予約による待ち時間
ほぼゼロの実現
49

Kinesis を通じた機械学習
機械学習により待ち時間を効率化
（待ち時間の予測精度が60%向上）
店舗端末
レーン

NAVITIME さまのログ分析，可視化基盤
https://d0.awsstatic.com/events/jp/2017/summit/slide/D2T6-1.pdf

Here.com さま
世界最⼤⼿の地図企業
⾃動運転に必要なHD Live Mapの
⽣成基盤にAWSを利⽤
• ⾞載センサーデータの収集
• 分析(道路状況の変化等)
• ⾞へのLive データ配信
3PB以上のデータを収集・保存
• 5年以内に150PBを⾒込む
https://www.youtube.com/watch?v=Jvg_SsNyR00&feature=youtu.be&t=3544
http://360.here.com/2016/04/20/the-role-of-amazon-web-services-in-autonomous-driving/

Amazon Elastic MapReduce
53

Hadoop とは
⼤規模データを保持及び処理するためのクラスタ
ミドルウェア，およびそのエコシステム
マスターノードとスレーブノードに分かれており，
• マスターノードはクラスタの管理を担当
• スレーブノードは
• YARN によるジョブの実⾏
• HDFS によるデータの保持
分散処理基盤として，さまざまなミドル
ウェアをその上で実⾏することが可能
55

Task Node
Task Instance Group
Amazon EMRのアーキテクチャ
security group
security group
Master Node
Master Instance Group
Amazon
S3
Amazon
DynamoDB
Amazon
Kinesis
Core Node
Core Instance Group
HDFS HDFS
HDFS HDFS
Task Node
Task Instance Group
スレーブ群を
管理
HDFS
アクセス
AWSサービス
アクセス

既存の Hadoop クラスタの問題
コンピュートとストレージが⼀体となっている
57
• どちらかが⾜りないときでも，必ずノードを増やさないといけ
ない
• HDFS のデータを消さないために，マスターノードを多重化し
ておかないといけない
• データ利⽤のために，クラスタを常に起動しておく必要がある

EMRFS: Amazon S3 を HDFS のように扱う
• 計算資源とストレージを分離できる
• クラスタのシャットダウンが可能
• クラスタを消してもデータをロストしない
• 複数クラスタ間でデータ共有が簡単
• クラスタのバージョンアップ検証が並⾏可能
• S3 によるデータの⾼い耐久性

Amazon EMR の機能: インスタンスフリート
スポットインスタンスが，より便利に
使えるようになる機能
複数のインスタンスタイプを指定して
起動することで，最適なスポットイン
スタンスの組み合わせを⾃動的に選択
してクラスタを⽴ち上げる
また起動時に，1-6 時間の範囲で動作
時間を指定することができるため，指
定時間内でのジョブの実⾏を保証する
ことができる
59 https://aws.amazon.com/jp/blogs/news/new-amazon-emr-instance-fleets/

AWS Glue

AWS上のETL(Extract, Transform and Load)サービス
巨⼤データへのETL処理を...
「スケールアウト」で対応
「サーバレス」で提供
AWS Glue
https://aws.amazon.com/jp/glue/

AWS Glue – 全体像
データソースをクロールし、
メタデータを取得
メタデータは
データカタログで管理
メタデータを元に
ジョブを作成（PySpark)
ジョブはサーバレスな環境
で実⾏される

Glueはスケールアウト処理を実現
ベース技術にSparkを採⽤
⼤規模データに対し⾃動的にス
ケールアウト
スケールアウトのためのインフラ
設計が不要
JOB

サーバレスのジョブ実⾏
サーバレス：サーバ管理を意識
しないで利⽤できるサービス
プロビジョン、コンフィグ、
パッチ等が不要に
処理に掛かったリソースのみへ
の⽀払い

分析データレイク
ビッグデータ処理もサーバレスで実現可能に
サーバレスで、より分析に集中しやすい環境を実現
※全ての分析がサーバレスで実現できるわけではありません。適材適所の配置が重要です
可視化
Amazon
QuickSight
Amazon S3
プリプロセス
全データ変形済
Amazon
Athena
AWS
Glue
収集
AWS
Glue

Amazon EMRとAWS Glue
Amazon EMR AWS Glue
用途汎用Hadoop/Spark環境 ETL処理に特化
（Sparkベース）
スケールアウト可能（ユーザ設計）可能（パラメータ指定）
サーバ管理数クリックで指定した環境が
準備される
サーバ管理が不要
（サーバレス）
データレイク（S3）への透
過的なアクセス
可能可能
プログラミング環境 Hadoopエコシステム上の多
様なアプリケーション
PySparkでETL処理をカス
タマイズ

エンドトゥエンドのフルマネージドMLサービス
Amazon SageMakerを発表
• データサイエンティストや開発者が容易に機械
学習モデルを構築・学習・活⽤できるように
– オーサリング：IDEとしてJupyter notebookを即座に起動。通
常のインスタンスに加えGPUインスタンスでも利⽤可能
– モデルの学習：モデルの構築・学習・確認機能を提供。組み込
みの教師有り/無し学習アルゴリズムやフレームワークを利⽤
し学習モデルを構築できる。学習データやモデルはS3を活⽤
– ホスティング：リアルタイムインタフェースを提供するため、
モデルを利⽤するためのHTTPエンドポイントを提供。
• インスタンスの利⽤料(秒単位)、ストレージ利
⽤料(GB単位)、データ転送料(GB単位)で利⽤
可能。AWS無料利⽤枠の対象となる

Speech-to-Textのマネージドサービス
Amazon Transcribeを発表
• テキスト起こしを実現するマネージドサービス
により、⾳声から得られる情報の利活⽤が容易
になる
• リアルタイム処理のみならずS3に格納された⾳
声データの処理もサポート。⾳声とテキストの
時刻同期情報も出⼒可能
• ローンチ時点では⽶国英語とスペイン語をサ
ポート。他⾔語には順次対応予定

フルマネージドな⾃然⾔語理解サービス
Amazon Comprehendを発表
• テキストを⼊⼒することで⾔語の識別やエンティティ、キーフレーズ
の抽出、センチメント分析などを実⾏できる
• AWSが構築済みのモデルを利⽤するため、ユーザは解析対象のテキス
トを⽤意するだけですぐに利⽤を始められる

Amazon S3 Selectと
Amazon Glacier Selectを発表
• S3 Select(プレビュー)：ファイル全体をダウ
ンロードせず必要なデータのみをシンプルな
SQLでクエリ可能に。最⼤400%の性能改善
– Lambdaファンクションから利⽤すると便利。Athenaや
Redshift/EMRがS3 Selectをサポート予定
– プレビュー期間は無料で利⽤でき⾮圧縮のCSV/JSONをサポー
ト。暗号化ファイルは現時点では⾮対応
• Glacier Select(⼀般利⽤開始)：Glacierにアー
カイブされたデータにもS3 Selectと同様に直
接クエリを発⾏可能に。AWS Glueとの連携も
– スキャンしたデータ量(GB)、応答データ量(GB)、リクエスト
数にで課⾦。データ取り出しスピードによって単価が異なる

深層学習技術を利⽤した動画認識サービス
Amazon Rekognition Videoを発表
• S3に蓄積された動画やライブストリーミング動画を解析し、物体や顔
やコンテンツを検出し識別することができる
• AWS CLI/AWS SDK/REST APIから利⽤でき、⼈物のトラッキングや
顔検出など複数の処理APIが提供される
• .mp4または.movの動画を処理可能。エンコード形式はH.264となる

数多くの動画ストリームのインジェストを実現する
Amazon Kinesis Video Streamsを発表
• 数百万のカメラデバイスからアップロードされ
る動画ストリームや、時系列データを容易に取
り扱うことができるマネージドサービス
• 送信側はProducer SDKを利⽤してKinesis
Video Streamsにデータを送信する必要がある
• 料⾦体系はデータ量依存。Streamに対する投
⼊量と読出量、保存量に対して課⾦される
• 東京、バージニア、オレゴン、アイルランド、
フランクフルトのリージョンで利⽤可能

AWSマネージドなサービスを使った構成

Web/API層：
Serverlessや、コン
テナ等を活⽤してマイ
クロサービスを構築
DBはAuroraや、
DynamoDBを必要に
応じて活⽤

ログ層：
Kinesis Data Firehose経由でロ
グなどのデータをデータレイクで
あるS3へ。
機械学習サービスである
SageMaker、⾃然⾔語処理のサー
ビスであるComprehendや、API
Readyのデータを⽣成するための
Glue、BIやバッチ系にAthnaを活
⽤する事が可能

セキュリティ：
権限管理はIAM、
CloudTrailでAPI等の
リソースに対する監査
ログを取得する。
DDoS等の対策には
WAFやShieldを活⽤。
その他：
Route53は単純なDNS機能と
してだけではなくGLBや、サー
ビスディスカバリのサービスと
しても使⽤可能。
Pinpointはセグメントプッ
シュ配信を⾏うためのマーケ
ティング基盤。
TimeSyncといったNTPの
サービスもリリースした
コールセンタ：
Amazon Connectを使⽤す
ることでスケールし、かつグ
ローバル展開できるコールセ
ンタを構築可能
そこから録⾳データ等を
SageMaker、Transcribe、
Comprehend等で
DeepLearning も。

【IVS CTO Night & Day】AWSにおけるビッグデータ活用

【IVS CTO Night & Day】AWSにおけるビッグデータ活用

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 【IVS CTO Night & Day】AWSにおけるビッグデータ活用

Similar to 【IVS CTO Night & Day】AWSにおけるビッグデータ活用 (20)

More from Amazon Web Services Japan

More from Amazon Web Services Japan (20)

【IVS CTO Night & Day】AWSにおけるビッグデータ活用