Hadoop輪読会第6章

[object Object],[object Object],　桑野　章弘

自己紹介 ,[object Object],[object Object],[object Object]

6.1 MapReduce ジョブの実行の内幕 ,[object Object],[object Object],[object Object],P169

6.1 MapReduce ジョブの実行の内幕 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

MapReduce ジョブの実行遷移図 MapReduce プログラム JobClient JobTracker TaskTracker 子 Map タスクあるいは Redule タスク共有ファイルシステム（ HDFS 等） 1. ジョブの実行 2. 新規ジョブの取得 4. ジョブの投入 3. ジョブのリソースのコピー 5. ジョブの初期化 6. 入力スピリットの取得 8. ジョブのリソースの取得 9. 起動 10. 実行 7. ハートビート（タスクの返却）クライアント JVM クライアントノード Jobtracker ノード tasktracker ノード子 JVM

6.1.1 ジョブの投入 [ ステップ１ ] ,[object Object],[object Object],[object Object]

6.1.1 ジョブの投入 [ ステップ 2 ～ 4] ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

6.1.2 ジョブの初期化 [ ステップ 5 ～ 6] ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

6.1.3 タスクの割り当て [ ステップ 7] ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

6.1.4 タスクの実行 ,[object Object],[object Object],[object Object],[object Object],[object Object]

ストリーミングとパイプ ,[object Object],[object Object],[object Object],[object Object]

ストリーミングとパイプストリーミング TaskTracker 子 Map タスクあるいは Redule タスク 9. 起動実行 tasktracker ノード子 JVM ストリーミングタスク起動出力キー / 値入力キー / 値標準入力標準出力 TaskTracker 子 Map タスクあるいは Redule タスク 9. 起動実行 tasktracker ノード子 JVM C++map あるいは Reduce タスクソケット起動出力キー / 値パイプ

6.1.5 進行状況とステータスの更新 ,[object Object],[object Object],[object Object],[object Object],[object Object]

6.1.5 進行状況とステータスの更新 MapReduce プログラム JobClient JobTracker TaskTracker 子 Map タスクあるいは Redule タスク共有ファイルシステム（ HDFS 等） getJob getJobStatus 9. 起動ハートビートクライアント JVM クライアントノード Jobtracker ノード tasktracker ノード子 JVM 進行状況あるいはカウンターの更新 statusUpdate

6.1.6 ジョブの完了 ,[object Object],[object Object],[object Object]

6.2 障害 ,[object Object],[object Object],[object Object],[object Object],P176

6.2.1 タスクの障害 ,[object Object],[object Object],[object Object],[object Object]

6.2.1 タスクの障害 ,[object Object],[object Object],[object Object]

6.2.1 タスクの障害 ,[object Object],[object Object],[object Object],[object Object],[object Object]

6.2.2 tasktracker の障害 ,[object Object],[object Object],[object Object],[object Object]

6.2.3 jobtracker の障害 ,[object Object],[object Object]

6.3 ジョブのスケジューリング ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],P178

6.3 ジョブのスケジューリング ,[object Object],[object Object],[object Object],[object Object],[object Object],P178

6.4 シャッフルとソート ,[object Object],[object Object],[object Object],P179

6.4 シャッフルとソート map タスク reduce タスク map reduce 入力スプリットメモリ内バッファコピーフェーズディスク上でのマージパーティション取得他の reduce へ他の map からメモリとディスク上にデータが混在マージ出力ソートフェーズ reduce フェーズ

6.4.1 シャッフルとソート [map 側 ] ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

6.4.2 シャッフルとソート [reduce 側 ] ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

6.4.3 設定のチューニング ,[object Object],[object Object],[object Object],[object Object]

6.4.3 設定のチューニング [map] map の出力を reducer に提供するために使われる、 tasktracker ごとのワーカースレッド数。これはクラスタ単位の設定であり、ジョブ単位には設定することは出来ない。 40 int tasktracker.http.threads map の出力に使われる圧縮コーデック。 org.apache.hadoop.io.compress.DefaultCodec クラス名 mapred.map.outupt.compression.codec combiner を実行する（ combiner が指定されている場合）のに必要な最小限のスピルファイル数。 3 int min.num.spills.for.bombine map 出力のメモリバッファと、レコード境界インデックスの両方に適用される。ディスクにスピルを書き出し始めるかどうかの判定をするための利用率の閾値。 10 int io.sort.spill.percent io.sort.mb の中で、 map の出力のレコード境界を保存するために予約される比率。残りの領域は map の出力レコードのために使われる。 0.05 fload io.soft.record.percent map 出力のソートに使われるメモリバッファの量（単位はメガバイト） 100 int io.sort.mb 説明デフォルト値型プロパティ名

6.4.3 設定のチューニング [reduce] reduce の過程で、 map の出力を保持するために使われるバッファの、総ヒープサイズに対する比率。 reduce フェーズが開始されるためには、メモリ内にある map の出力サイズがこのサイズよりも大きくなければならない。デフォルトでは、 reduce の処理が出来る限りのメモリを使えるようにするため、すべての map の出力は reduce が開始される前にディスク上にマージされている。しかし reducer がそれほどメモリを使わない場合、この値を増やすことでディスクとのやりとりを最小限に抑えられることがある。 0.0 float mapred.job.reduce.input.buffer.percent map の出力をマージし、スピルとしてディスクに書き出すプロセスが開始される、 map 出力数の閾値。 0 以下の値を指定した場合、閾値がない物と見なされ、スピルの動作は mapred.job.shuffle.merge.percent でのみ管理される。 1000 int mapred.inmem.merge.threshold map の出力バッファ（ mapred.job.shuffle.input.buffer.percent で指定）に対する使用率の閾値。この値を超えると出力のディスクへのスピルへの書き出しが開始される。 0.66 float mapred.job.shuffle.merge.percent 総ヒープサイズに対する、シャッフルのコピーフェーズ間の map の出力バッファへの割り当て比率 0.70 float mapred.job.shuffle.input.burffer.percent このファイルをソートする際に同時にマージされる最大のストリーム数。このプロパティは map でも使われる。 10 int io.sort.factor 1 つの map の出力を reduce が取得する際に、失敗したと判定するまでの時間（秒）。 reducer は、この時間内であれば、何回取得に失敗しても繰り返し転送をしてみることができる（その際には、指数関数的に間隔をあけていく） 300 int mapred.reduce.copy.backoff map の出力を reduce にコピーするために使われるスレッド数。 5 int maprd.reduce.parallel.copies 説明デフォルト値型プロパティ名

6.5 タスクの実行 ,[object Object],[object Object],[object Object],[object Object],[object Object],P184

6.5.1 投機的実行 ,[object Object],[object Object],[object Object],[object Object],[object Object]

6.5.2 タスク JVM の再利用 ,[object Object],[object Object],[object Object],[object Object]

6.5.3 不良レコードのスキップ ,[object Object],[object Object],[object Object],[object Object]

6.5.4 タスクの実行環境 ,[object Object]

6.5.4 タスクの実行環境 true このタスクが map タスクかどうか boolean mapred.task.is.map 3 ジョブ内でのタスク ID int mapred.task.partition attempt_200811201130_0004_m_000003_0 タスク試行 ID （タスク ID とは別） String mapred.task.id task_200811201130_0004_m_000003 タスク ID String mapred.tip.id job_200811201130_0004 ジョブ ID （フォーマットの説明は「 5.5.2 　ジョブの起動」のコラム「ジョブ、タスク、タスク試行 ID 」を参照） String mapred.job.id 例説明型プロパティ名

ストリーミングの環境変数 ,[object Object],[object Object],[object Object]

タスクの副作用ファイル ,[object Object],[object Object],[object Object]

まとめ ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

ご清聴ありがとうございました。

Hadoop輪読会第6章

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (12)

Andere mochten auch

Andere mochten auch (18)

Ähnlich wie Hadoop輪読会第6章

Ähnlich wie Hadoop輪読会第6章 (20)

Mehr von Akihiro Kuwano

Mehr von Akihiro Kuwano (20)

Hadoop輪読会第6章

Hinweis der Redaktion