Weitere ähnliche Inhalte
Andere mochten auch
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...MapR Technologies Japan
Ähnlich wie Hadoop Conference Japan 2009 - NTT Data
Ähnlich wie Hadoop Conference Japan 2009 - NTT Data (20)
Mehr von NTT DATA OSS Professional Services
Mehr von NTT DATA OSS Professional Services (20)
Hadoop Conference Japan 2009 - NTT Data
- 1. Hadoop Conference Japan 2009
SI事業の視点から見た Hadoop の適用領域と今後の展望
~ NTTデータにおけるHadoopへの取り組み ~
2009年11月13日
株式会社 NTTデータ
基盤システム事業本部
政谷
Copyright ©2009 NTT DATA Corporation
- 2. 担当紹介
NTTデータ 基盤システム事業本部 OSS技術統括部
Linux/OSSを利用したシステム構築・運用をサポートする業務を担当
OSSによるシステム基盤 Prossione®
– 徹底的に検証・評価したOSSの組み合わせ、設定・運用のノウハウの提供
– 高品質なシステム基盤を実現する仕組みの整備
OSSのサポートサービス Linaccident®
– 幅広いOSSを対象とするプロフェッショナルサービスの提供
最近は、OSSを活用したクラウド分散処理基盤 Hadoopの技術整備
も担当
『象』 好きです
PostgreSQL Hadoop
Copyright ©2009 NTT DATA Corporation 1
- 5. OSSの未来
従来技術は、必要充分な性能をもっ
性
た後発のローエンド技術に凌駕されて ム)
能 レー
いく!
イ ンフ
(メ
OS
独自 ws
NI
X
ド+ n do
U
一般的な ハ ー
ー ド+ Wi SS
顧客が利
用 自 ハ + O
独 +
能
独 自 ーバ
可能な性
ーバ
「メトカーフの法則」
IAサ
Aサ
ネットワークの価値は
I ユーザ数の2乗に比例
(マス・コラボレーションの時代)
「ギルダーの法則」
ネットワークの通信速度は
「ムーアの法則」 6~9ヵ月で2倍
半導体集積密度は18ヵ月で2倍 (ネットワークの時代)
1970 1980 1990 2000 未来
Copyright ©2009 NTT DATA Corporation 4
- 6. クラウド時代のITシステム ...
IT基盤をより Smart に
無駄を減らすことによる効率化、資源のプール化などで実現
単一性と多様性のバランスが練られたシステム
コモディティ技術を使い切ることがポイントに
スケールアウト技術を身近なものに
IAサーバ+OSSにより多数のサーバの利用が容易化
新しい処理モデルやデータモデルの浸透
従来のACIDを求める処理方式とは異なるモデル
MapReduceアルゴリズム、Key-Valueストア、自律分散協調システム など
Copyright ©2009 NTT DATA Corporation 5
- 7. なぜ Hadoop か?
今まで扱うことが難しかった領域を切り拓く
ペタバイトクラスのデータ、大規模分散処理
数千台規模のサーバを用いることで、従来は困難であった処理が実現できる
『定型的な業務データ』 処理の枠組みにとらわれない
単純なETLではなく 準定型的なデータも扱える 柔軟な ETL & ELT (*1)
プロセス指向だけでなく、データ指向に基づいた
システムの浸透
Extract Transform Load
ターゲット Transform
Analyze
現在: コスト、スケールに価値を
見出す 『先見派』
Source Data
今後: さらなる生産性向上の手段を Repository
求めている 『実利派』
* “Impact of Cloud Computing on Research in Extreme Scale Analytics” Hamid Prahesh pirahesh@almaden.ibm.com
Copyright ©2009 NTT DATA Corporation 6
- 9. OSS構築実績 (規模・処理量マップ)
処理量
(万件/時)
~150TPS
~2TB
60
●
40
● ●
●
●
20
● 敢えて乱暴に絵を描いてみる
●
●
10
●
● ● ●
●
5 ● ● ●
● ●
● ●
10万件 100万件 300万件 500万件 1000万件 1億件 10億件
DB規模
Copyright ©2009 NTT DATA Corporation 8
- 10. OSS構築実績 (規模・処理量マップ)
処理量
(万件/時) ~数PB
構築・運用
60
支援中
●
40
● ●
●
●
20 ●
●
●
10
● 経産省
● ● ● 実証案件
●
5 ● ● 実施中
●
● ●
● ●
10万件 100万件 300万件 500万件 1000万件 1億件 10億件
DB規模
Copyright ©2009 NTT DATA Corporation 9
- 11. OSS構築実績 (規模・処理量マップ)
処理量
(万件/時)
60
先見派
今後のターゲット
●
領域
40 実利派
●
●
●
構築・運用
支援中
●
20 ●
●
●
10
● 経産省
● ● ● 実証案件
●
5 ● ● 実施中
●
● ●
● ●
10万件 100万件 300万件 500万件 1000万件 1億件 10億件
DB規模
Copyright ©2009 NTT DATA Corporation 10
- 12. NTTデータの取り組み
Copyright ©2009 NTT DATA Corporation 11
- 13. 2匹目の象を育むために
新技術普及の流れ
顧
客
数 PostgreSQL サーバLinux
キャズム
パフォーマンス市場(ハイエンド)
Hadoop
バリュー市場(メインストリーム)
先見派 懐疑派
マニア 実利派 保守派
時間
顧客が自分で改造 自分で組み合わせる 技術に強い、リスクは取らない 技術に強くはない、コモディティ化した技術を 組み込まれて目に
生産性向上の手段を求めている マーケット・リーダから購入、手厚いサポート 見えなければ購入
必須
要件定義支援サービス、設計・構築サービス の提供
要件定義支援サービス、設計・構築サービス の提供
OSからHadoopまで一貫した スタックサポートサービス、
OSからHadoopまで一貫した スタックサポートサービス、
オンサイト障害対応サービス の提供
オンサイト障害対応サービス の提供
OSS基盤を使ったシステム構築の 実績作り
OSS基盤を使ったシステム構築の 実績作り
Copyright ©2009 NTT DATA Corporation 12
- 14. 3つのクラウドタイプ
Amazon Force.com Hadoop
タイプのIaaS タイプのPaaS タイプのPaaS
徹底した 徹底した
徹底した
特徴 仮想化インフラの追及
マルチテナンシーの追及 スケーラビリティの追及
(DB仮想化) (BASE)
Webアプリ 大規模データ
Webアプリ ワークフロー BI/DWH
一品モノ ビジネスプロセス系 センサー系
適したアプリ 既存アプリのマイグレー 参照・問合せ系 分析系、バッチ系
ション キャンペーンサイト 参照・問合せ系
社内システム メディア系
高トランザクション リアルタイム
高インタラクティブ
適さないアプリ 大規模データ、BI/DWH メディア系コンテンツ
トランザクション
大規模データ、BI/DWH 高インタラクティブ
(Web/AP/DB)サーバ MapReduce
(AP/API/検索)サーバ
ゲストOS、ゲストOS、・・・ 分散ファイルシステム
スタック構成 VMM(ハイパーバイザー)
DBクラスタ
OS
ハード
ハード ハード
Copyright ©2009 NTT DATA Corporation 13
- 15. 経産省 「実証事業」 に Hadoopベースの提案が採択
テーマ:クラウド型分散処理基盤 (Hadoop) の適用性評価
基盤の観点では...
クラウド基盤信頼性向上への取り組み
Master Server の冗長化
確立した Heartbeat + DRBD に加えて Kemari + DRBD を評価
クラウド基盤運用効率化への取り組み
初期構築・増設、故障交換時のノードの自動構成を標準的な
製品機能とOSSの組合せで実現
サーバの種別・機種が混在する環境でも適用可能な実装を実証
Copyright ©2009 NTT DATA Corporation 14
- 16. Heartbeat + DRBD による Master Server の冗長化
Master Server(NameNode,JobTracker)の冗長化を実現
Heartbeat
Linux-HAプロジェクトによって開発されたサーバのHAソフトウェア
http://www.linux-ha.org/ja/HomePage_ja
DRBD(Distributed Replicated Block Device)
2台のサーバ間でディスク上のデータミラーリングを実現するソフトウェア
http://www.drbd.org/
NameNode NameNode
heartbeat heartbeat
永続データの同期型ミラー
DRBD DRBD
NameNode(待機系)
NameNode(現用系)
イメージファイル
editsファイル Heartbeat/ミラーリング LAN
イメージファイル
editsファイル
Copyright ©2009 NTT DATA Corporation 15
- 17. Master Server冗長化 (続き)
Master Serverのうち、 Job Trackerは永続データの引き継ぎは不要
NameNodeの冗長化では永続データの引継ぎが必要
イメージファイル
HDFS上のデータに対する格納先ノード、ブロックサイズなどのメタ情報が格納されたファイル
NameNode起動時にメモリにロードされ、チェックポイントのタイミング及び、NameNode停止
時にディスク上のファイルにフラッシュされる。
editsファイル
イメージファイルに対するトンラザクションログ
メタ情報の更新時はイメージファイルではなく、トランザクションログに更新内容が出力
NameNodeの異常終了(プロセスダウンなど)後にNameNodeを起動する場合、
イメージファイルにeditsファイルの更新内容が適用され、異常終了直前の整合性が
維持された状態にメタ情報が復元される。
Job Trackerのハード故障時、実行中のJobの内容は失われる...
長時間かけた処理の結果が失われるのは辛い
Copyright ©2009 NTT DATA Corporation 16
- 18. “Kemari” ?
蹴鞠 (Kemari)
鞠を落とさない!
↓
サーバを落とさない!
http://www.ntt.co.jp/cclab/activity/category_6/a_product_01.html
http://www.osrg.net/kemari/
Copyright © 2007-2008 Nippon Telegraph and Telephone Corporation 17 17
Copyright ©2009 NTT DATA Corporation
- 19. “Kemari” + DRBD による Master Server の冗長化
Job Tracker ハード故障時でも、Job の中断・再試行を回避できる
Kemari KVM版 開発中!!
[2] 運用系の差分を転送 [3] 差分で待機系を更新
Kemari
Kemari Kemari
差分転送
差分転送 差分更新
Dom0 DomU
Sync DomU DomU Dom0
Back-end Front-end Front-end Back-end
Kemari イベントチャネル
Kemari イベントチャネル Xen
Xen
Network
Hardware Hardware
[1] 特定のイベントを DRBD or SAN
補足し、VMを一時停止
Copyright ©2009 NTT DATA Corporation 18
- 21. まずは、大規模データ処理ニーズを取り込む
現在: 先見派 ~ コスト・スケールメリットを訴求
とにかく大きなデータを扱いたい - 大量の生データ
あまり複雑な処理まで未だ望んでいない
バッチ処理でデータを抄訳、...
メリットがあるところから適材適所で使われる
まずは大規模バッチへの適用から、適宜従来システムとのハイブリッド化
(例 Facebookのハイブリッド構成)
基盤の経済的な構築・運用の実績作りの段階
今後: 実利派 ~ 『生産性向上』 のシナリオ
データ指向に基づいたITシステムの活用が新しいIT領域を
切り拓き、新しいビジネスを創出する
より抽象度の高いツールの使いこなし ← 今後の取り組み
適切な可視化ツールの整備
Copyright ©2009 NTT DATA Corporation 20
- 22. 大規模データを対象としたITシステム
今まで扱うことが難しかった領域を切り拓く
~ 大規模データを扱うシステム それ自体が「新しいITシステム」
大量データを扱うプラットフォームを Commodity で実現するのが当り前に
長期に渡るデータの収集、Webスケールのデータ収集を可能に
→ HDFS + IAサーバ
プロセス指向のITシステムからデータ指向に基づいたITシステムへの転換
プロセス指向のIT化 ~ データの扱いは ETL
Extract Transform Load
ドメイン・業務分析 → 構造化できるデータを特定 → システム化活用
予め解釈を与えておいて
データ指向のIT化
Gather Extract Load & Transform
集めて 面白そうな対象を選び システムに取り込みモデル化を試みる
分析対象のモデル化作業自体をIT化の対象とする Extreme Analytics
データを対象にした extreme programming 様のプラットフォームとして Hadoop が普及 ☺
Copyright ©2009 NTT DATA Corporation 21
- 23. お問い合わせ先:
株式会社NTTデータ 基盤システム事業本部
システム方式技術ビジネスユニット OSS技術統括部 (担当: 濱野, 政谷)
メール: hadoop@kits.nttdata.co.jp TEL: 050-5546-2496
記載されている会社名、商品名、又はサービス名は、各社の登録商標又は商標です。