13. データ基盤の歴史>Hadoop以前
高性能なストレージを中心に置いた設計
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 13
Web
Server
Web
Server
Web
Server
Data
Pipeline
(Y!Inc
origin)
Teradata
ORACLE
MySQL
Network
Storage
Batch
C++
Batch
perl
Batch
php
• ストレージをスケールインすることで性能を向上
• バッチ処理は独自の分散フレームワーク
• クエリエンジンはRDBが主流
• 独自の分散フレームワークの限界・・
16. データ基盤の歴史>黎明期>データ基盤
予算がある部門による検証段階
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 16
• Hadoopは事業部予算で10〜100ノード程度のクラスタが乱立
• 部門の予算では100ノードくらいが限界
• 予算とスケーラビリティの限界・・
Hadoop
(x10〜x100)
Web
Server
Web
Server
Web
Server
Data
Pipeline
(Y!Inc
origin)
Teradata
ORACLE
MySQL
Network
Storage
Batch
C++
Batch
perl
Batch
php
19. データ基盤の歴史>導入期>データ基盤
全社基盤化により利用促進
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 19
• ストレージからアップロードする機能をサポート
• 事業部のアプリケーションが直接ストレージにアクセスしなくなった
• 予算がない部門も利用可能に
• Hadoopへの使用率が加速・・
Hadoop
(x1000)
Hadoop
(x10〜x100)
Web
Server
Web
Server
Web
Server
Data
Pipeline
(Y!Inc
origin)
Network
Storage
Teradata
ORACLE
MySQL
21. データ基盤の歴史>データ爆増期>Hadoop
クラスタの全体最適化
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 21
Hadoop
(x3000)
Hive/Tez
(x700)
• メインのクラスタのノード数を増強
• SLAが厳しいサービスに特化したクラスタを用意
Hadoop
(x1000)
アドホック 定常ジョブ 高SLA アドホック 定常ジョブ 高SLA
Data
22. データ基盤の歴史>データ爆増期>データ基盤
データ利用の効率化を促進
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 22
Web
Server
Web
Server
Web
Server
Data
Pipeline
(Y!Inc
origin)
Hadoop
(x3000)
ObjectStore
(YJ origin)
cassandra
Hive/Tez
Network
Storage
• Hadoopクラスタの増強
• 高SLAなサービスには専用クラスタを提供
• Hive, cassandraなど次世代のデータストアを導入
Teradata
ORACLE
MySQL
32. 次世代基盤>データ基盤
パイプラインのOSS化・コモディティ化
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 32
Web
Server
Web
Server
Web
Server
New
Data
Pipeline
(Kafka cluster)
Hadoop
Stream
Platform
• データ取得においてもストレージ依存を脱却
• ストリーム処理基盤の追加
• Hadoopだけでなく、KVS,RDBも適材適所で活用
Tez
llap
ObjectStore
(YJ origin)
cassandra
Hive/Tez
Teradata
ORACLE
MySQL