今さら聞けないHadoop セントラルソフト株式会社(20120119)

今さら聞けない
Hadoop!
セントラルソフト株式会
社
システム開発課
瀧澤徹

2

Hadoopは象
のぬいぐるみ

3

本セミナーの目的

6

セミナーの目的
 Hadoop 初心者の方に、動作概念をロールプレイを
通して理解してもらう。

7

アジェンダ
 データの大規模化
 Hadoop
 HDFS
 ロールプレイ HDFS 編
 MapReduce
 ロールプレイ MapReduce 編
 まとめ

8

データの大規模化

9

世界のデジタルデータの推移
2006年で18万ペタバイト

2009年で80万ペタバイト

2011年で2ゼタ(200万ペタ)バイト

2020年で35ゼタ(3500万ペタ)バイト(予想)

10

大量データへの対応（１）
 ハードディスク容量の増加にアクセ
ス
速度が追い付いていない。
 1テラバイトのデータを読み出すのに、
転送速度が 100MB/s ならば、2時間半
かかる。

12

大量データへの対応（２）
 転送時間を短縮する方法。
 100台のドライブに 1/100 ずつデータを保
管。
 保管したデータを並列に取り出す。
 転送時間が2時間半から2分以内に短縮。

 ただし、次の問題が発生する。
 障害の発生する確率が増える。
 データを結合する仕組みが必要。

13

問題の解決
 耐障害性
 分割したデータをコピーして複数台のマシンに保存する
ため、一部のストレージサーバが故障しても正常に稼
働。
 デフォルトのコピー数は３。

 データ結合
 分散ファイルシステム。

15

スケーラビリティ
 RDB とは異なり、並列台数を増やしただけ性能が向
上

（
合
計
処
理
能
力
）

（マシンの台
数）
Bitqull: Data harvesting with MapReduceか
ら
16

Hadoopとは
 ビッグデータを分散処理するためのミドルウェア
 ビッグデータ：大量・非定型・リアルタイム性の高い
データ

 Google の GFS 論文と MapReduce 論文を元に作成
 Java で記述
 オープンソース

18

分散処理のイメージ

19

Hadoop を使った事例
Hadoop 適用前適用後
 楽天 120時間  5時間
(1日の購入履歴) （1/24）
 クックパッド 7000時間
(1年分のデータ処理)  30時間
（1/233）
 Yahoo 624時間
(3年分のログ解析)
 20分
 VISA 720時間
（1/1872）
(2年分のデータ解析)

 13分
20 （1/3323）

Hadoop を構成する技術
 HDFS
 分散ファイルシステム
 MapReduce
 分散処理フレームワーク

21

HDFS
(Hadoop Distributed File System)
 複数のストレージにファイルを分散する
 クライアントから HDFS を通してみると、一
つの
ファイルのように見える
 二種類のサーバで構成される
 ネームノード（NameNode）
 データノード（DataNode）

23

ネームノード
 マスターサーバ
 分割されているデータがどのデータ
ノードにあるか管理している。
ここには分
データノード
割データ0が
入ってる
分割データ
split0
0

ネームノー分割データ
split0
ド（マス 1
ター）
分割データ
split0
2

24

データノード
 スレーブサーバ
 ブロック（分割したデータ）の読み
書きを行う。
データノード
データAの
分割データ
0
データBの
分割データ
1
データCの
分割データ
3

25

ロールプレイ
HDFS編

26

クライアント
 クライアントがファイルをネームノードに渡す。

クライアントネームノード

ネームノード
 渡されたファイルをデータノードの数に分割しそれ
ぞれに渡す。
データノード

ネームノード

役割
 クライアント（1名）
 ネームノード（1名）
 データノード（４名）

30

補足
 実際はレプリケーションと呼ばれる、データのコ
ピーを
複数のノードへの保存が行われる。（デフォルトは3
データノード
か所）

ネームノード

MapReduceとは
 大量のデータを分散処理するフレームワーク。
 各ノードが自身の持つデータを処理する。

 3種類のフェーズから構成される。
 Map
 Shuffle & Sort
 Reduce

35

ワードカウントとは
 ある文書中にある単語数をカウントし、単語ごとに
使われた回数を結果として出力する。

36

ワードカウントの MapReduce の流れ

ローカルファイル


ローカルファイル Shuffle & Sort 処理


37

Map
 入力データの中で自身のノードが持っているデータ
を
処理し、中間データとして出力する。
 入出力の形式は key と value のペア。

入力デー <key A , value B>
タ

処理 Map

中間デー <key C , value D>
タ

38

ワードカウントの Map(入力データ)
 ファイルの1行を読み込んで Map の入力にする
 key ：行の先頭文字がファイルの開始から何文字目かの
数値
（バイトオフセット）
 入力ファイル（実ファ
value ：1行の内容そのまま
入力ファイル（HDFS 入力データ（<key ,
イル） value>）
上）
ノード1 dog cat cat <0 , “dog cat cat” >
dog cat cat

ノード2 bird dog
bird dog <12 , “bird dog” >
dog dog dog
ノード3 cat dog dog
dog <21 , “dog dog dog”>
cat dog
<33 , “cat” >
cat
ノード4
cat dog <37 , “cat dog” >

39

ワードカウントの Map(処理・中間データ)
 入力の value を単語に分割して、それを中間データ
の key 、数字の1を value にする

 ノード4上の処理
入力データ中間データ
（<key , value>）（<key , value>）
< “cat” , 1 >
<33 , “cat” >
< “cat” , 1 >
<37 , “cat dog” >
< “dog” , 1 >

40

ワードカウントの Map(全体の流れ)
 ノード4上の処理

< “cat” , 1 >
<33 , “cat” > Map 処
cat < “cat” , 1 >
cat dog <37 , “cat 理
dog”> < “dog” , 1 >

ファイルからのデータの読み込み
1行を単語へ分割中間データの出力

41

Shuffle & Sort
 Map が終了すると、生成された中間データを
Reduce に渡す前に Shuffle & Sort が行われる。
 Shuffle & Sort ではデータの key に基づいて、ソー
トとvalue の集約、ハッシュを用いて Reduce への
データの割り振りを行う。

Map
Reduce
Map
Shuffle &
Sort
Map
Reduce
Map

42

ワードカウントの Shuffle & Sort
Map の出力を同じ key の value を一つに集約し、 key
の順にソート、ハッシュでどちらの Reduce へ渡すのか
決める
ノード1の Map 出ノード3の Map 出 Reduce1 の入力
力力
< “dog” , 1 > < “dog” , 1 >
< “dog” , {1,1,1,1,1,1} >
< “cat” , 1 > < “dog” , 1 >

< “cat” , 1 > < “dog” , 1 >

ノード2の Map 出ノード4の Map 出 Reduce2 の入力
力力
< “cat” , 1 >
< “bird” , 1 > < “bird” , {1} >
< “cat” , 1 >
< “cat” , {1,1,1,1} >
< “dog” , 1 >
< “dog” , 1 >
43

Reduce
 Shuffle & Sort で処理されたデータを受け取り、処理
を行って HDFS 上に結果を書きだす。
 入出力の形式は key と value のペア。
B は同じ key A の
value (B1,B2,…) の集ま
り
処理されたデータ <key A , values B>

処理 Reduce

出力 key C value D

44

ワードカウントの Reduce (処理・出力)
 入力の value にある1の数を数えて、ファイルに key
と
ペアで出力する。

 Reduce2 の処理
入力出力（HDFS 上）

< “bird” , {1} > bird 1
cat 4
< “cat” , {1,1,1,1} >

45

（再掲）ワードカウントの MapReduce の流れ





46

ロールプレイ
MapReduce編

クライアント
 ネームノードにワードカウントを命令する


ネームノード
 データノードに処理を指示する。
データノード

ネームノード

Map
 入力データの単語ごとに、それぞれの単語をkeyに
して、valueに１とする。
 keyごとにソートしまとめる。
 ネームノードにまとめたデータを渡す。
中間データ
入力データ <“bird”,1> ネームノード
<“cat”,1>
dog cat <“cat”,1>
dog bird cat Map
dog <“dog”,1>
…

<“dog”,1>
<“dog”,1>

ネームノード
 中間データをマージします。
 マージしたデータを二つを分ける。
 Reduceに渡す。
Reduce
中間データ
<“bird”,1>
<“cat”,1> <“dog” ,{1,1,1}>
<“bird” , {1}>
<“cat”,1>
<“cat” ,{1,1}>
<“dog”,1> <“dog” ,{1,1,1}>
<“bird” , {1}>
<“dog”,1> <“cat” ,{1,1}>
<“dog”,1>

51

Reduce
 単語ごとにまとめられたvalueを足して出力する。
 ネームノードに渡す。

Reduce
ネームノード
<“dog” ,3>

<“cat” ,2>
<“bird” , 1>

ネームノード
 出力結果をデータノードにそれぞれ渡す。

データノード

ネームノード

53

クライント
 ネームノードに対し、結果のファイルを要求する。


54

ネームノード
 出力結果のファイルを渡すように指示する。

ネームノードデータノード

55

データノード
 ネームノードにファイルを渡す。

データノードネームノード

56

ネームノード
 ファイルをクライアントに渡す。

ネームノードクライアント

57

クライアント
 受け取ったファイルの確認をする。

出力ファイ
クライアントル
確認
bird 1
cat 2
dog 3

…
58

役割
 クライアント（1名）
 ネームノード（1名）
 Map（4名）
 Reduce（2名）

59

ネームノード
 中間データをマージします。
 マージしたデータを二つを分ける。
 Reduceに渡す。
Reduce
中間データ
<“bird”,1>
<“cat”,1> <“dog” ,{1,1,1}>
<“bird” , {1}>
<“cat”,1>
<“cat” ,{1,1}>
<“dog”,1> <“dog” ,{1,1,1}>
<“bird” , {1}>
<“dog”,1> <“cat” ,{1,1}>
<“dog”,1>

63

ネームノード
 出力結果をデータノードにそれぞれ渡す。

データノード

ネームノード

65

クライント
 ネームノードに対し、結果のファイルを要求する。


66

ネームノード
 出力結果のファイルを渡すように指示する。

ネームノードデータノード

67

データノード
 ネームノードにファイルを渡す。

データノードネームノード

68

ネームノード
 ファイルをクライアントに渡す。

ネームノードクライアント

69

クライアント
 受け取ったファイルの確認をする。

出力ファイ
クライアントル
確認
bird 1
cat 2
dog 3

…
70

（再掲）ワードカウントの MapReduce の流れ





71

まとめ
 Hadoop はデータの分散処理システムであり、
HDFS と MapReduce で構成される

 HDFS はデータファイルを分散管理するシステムで
あり以下のような構成である
 分割したデータの保存場所を管理する「ネームノード」
 実際にデータを保存する「データノード」

 MapReduce は以下の3つのフェーズで構成される
 入力データの加工を行う「Map」
 データの整理と分配を行う「Shuffle & Sort」
 まとめられたデータに対して処理を行う「Reduce」

73

今後の発表ネタ
 MapReduce 関連
 アルゴリズム
 転置インデックス・・・基本的な MapReduce
 TF-IDF ・・・複数回の MapReduce
 k-means 法・・・条件による MapReduce の分岐
 MapReduce プログラミング手法
 複数ファイルのデータのマージ
 パラメータ引渡し
 etc

 Hadoop 関連のシステム（エコシステム）
 HBase
 Hive

74

今さら聞けないHadoop セントラルソフト株式会社(20120119)

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (10)

Ähnlich wie 今さら聞けないHadoop セントラルソフト株式会社(20120119)

Ähnlich wie 今さら聞けないHadoop セントラルソフト株式会社(20120119) (20)

今さら聞けないHadoop セントラルソフト株式会社(20120119)