Weitere ähnliche Inhalte
Ähnlich wie Hadoop Hack Night Vol. 2 (20)
Mehr von Yoji Kiyota (20)
Kürzlich hochgeladen (12)
Hadoop Hack Night Vol. 2
- 1. 技術評論社/ヤフー 共催
Hadoop Hack Night Vol. 2
2010年8月4日
新たな情報インフラとしての
Hadoopの活用
株式会社リッテル 上席研究員
清田 陽司
(兼 東京大学情報基盤センター
学術情報研究部門 助教)
Twitter: @kiyota_yoji
- 5. ひねる
蛇口
水が出る
課金 請求書
水を捨てる 流し
- 6. ひねる
蛇口 メータ 水道管 配水施設 浄水施設 取水施設
水が出る
水漏れの 水圧の 水質の管理 水位の管理
防止 コントロール
河川
水利権の調整
料金集計 メータ 渇水への対処 ダム
課金 請求書
システム 検針 発電・治水との
調整など
マン
水を捨てる 流し
ホール
下水管 沈砂池 沈殿池 消毒施設
詰まりの防止 除砂 水質の管理
メンテナンス
汚泥処理 河川
インタフェース 中身
- 7. Hadoopのインタフェースと中身
データブロックの送受信 Hadoopスレーブサーバ#1
NameNodeへの状態通知
HDFSの全体統括 DataNode HDFS
ファイルの データブロックの管理 デーモン ストレージ
書き込み 異常発生時の復元処理 子JVM
TaskTracker map/reduce
ファイルの Mapタスク/Reduceタスクの起動
HDFS デーモン 子JVM
読み込み JobTrackerへの状態通知
API map/reduce
ファイルの
管理 Hadoop Hadoopスレーブサーバ#2
(複製、移動、 マスタサーバ DataNode HDFS
NameNode デーモン ストレージ
削除、…) デーモン
子JVM
TaskTracker map/reduce
JobTracker
バッチ処理 デーモン 子JVM
デーモン map/reduce
ジョブの投入
・・
バッチ処理 ・
ジョブの Map
Reduce Hadoopスレーブサーバ#N
状態取得
API DataNode HDFS
バッチ処理 デーモン ストレージ
ジョブの
子JVM
管理 バッチ処理ジョブの進行状況管理 map/reduce
TaskTracker
(キャンセル、 Mapタスク/Reduceタスクの割り振り
デーモン 子JVM
異常発生時のバックアップタスク実行指示
優先度 map/reduce
設定、…)
インタフェース 中身
- 8. ブラックボックスとしてとらえる
• インタフェースはシンプル
– ファイルシステム系(HDFS)
– ジョブ管理系(MapReduce)
• 中身はイメージで理解する&伝える
– ファイルシステム系とジョブ管理系が複雑にから
みあっている
• お互いが連携していることがHadoopの価値
– 1台のマスタサーバ+多数台のスレーブサーバ
- 9. なぜ必要とされているか
• 定型処理 → 非定型処理 への流れ
– 処理すべきデータ量の増大
– スケール・アウトが必然
• 存在の「空気」化
– 水道や電気を使っていることを普段から意識して
いる人はいない
- 15. 定型処理と非定型処理
• 定型処理
– 給与計算、売上集計、伝票処理など
– 人間が介在しない完全な自動化が可能
– 厳密さが求められる
– データ量はせいぜいGbytesオーダー
• 非定型処理
– 統計データ作成、検索、データ・マイニングなど
– 人間の介在が必要
– 厳密さよりカバレッジ重視 (データ量が重要)
– データ量はTbytes~Pbytesオーダーになり得る
- 17. リアルタイム処理要求 応答
ユーザインタフェース
アプリケーションサーバ(リアルタイム処理)
RDBMS
ログファイル 分散KVS
分散ファイル・システム(HDFS)
スレーブ・サーバーのハードディスクを束ねて構成
外部入力ファイル 外部出力ファイル
Hadoopクラスタ(バッチ処理)
- 24. まとめ
• Hadoopのメリットの伝え方
– 新しいインフラなのでわかりにくくて当然!
– 詳しい仕組みよりも、具体的な利用方法を
• できることとできないことをきちんと区別する
– 他のソリューションで十分なケースもたくさんある
– 既存手法と組み合わせることで問題解決可能
• DRBD+Heartbeatによるマスタサーバの多重化
• 埋もれているニーズはまだたくさんある