15. DOC.ID 2012/02/08
MapR [調査1] パーミッション権限 (3/3 Volume概念図)
Volume:
・Diskキャパシティ管理
・NameContainer、DataContainerの管理境界
・上記に関連するReplication数やsnapshotの境界
アクセス可否はHDFSの
パーミッションで制御 1 HDFS 1
全サイト共有
1
n n
n
サイトユーザ n 1 1 n
サイト Volume
(データ利用者)
1 n
n
管理ユーザ
サイトユーザと管理ユーザは (Volume管理者) n Volumeに直接紐付くのは
同じでも別でもよい 管理ユーザ
DFSとユーザ(mapreduce, dfs利用者)の間に立つものではない。
DFSに対して一定の監視を行い、運用管理者に付加的な情報を与える存在。
P 14 Copyright(C)2012 Recruit Co.,Ltd All rights reserved
Print 12/2/13 1時10分
17. DOC.ID 2012/02/08
MapR [調査2] FairScheduler (2/3 pool内割当)
FairSchedulerを利用して、
一つのテナントから複数のJobが実行された場合の動作を確認。
スケジューリングモードは「 schedulingMode=Fair」で設定。
poolの設定 Priorityには、以下の5種類がある。
VERY_HIGH(4.0), HIGH(2.0), NORMAL(1.0), LOW(0.5), VERY_LOW(0.25)
Max Slot数 12
Priority 優先度 割当Slot数
Job A Job B Job A Job B Job A Job B
NORMAL 実行なし 1.0 ---- 12 0
NORMAL NORMAL 1.0 1.0 6 6
NORMAL HIGH 1.0 2.0 4 8
NORMAL VERY_HIGH 1.0 4.0 2 10
pool内の合計Slot数が、poolの設定Slot数を守るように分配される。
優先度に応じてSlot数が計算され、各JobにSlotが割り当てられる。
P 16 Copyright(C)2012 Recruit Co.,Ltd All rights reserved
18. DOC.ID 2012/02/08
MapR [調査2] FairScheduler (3/3 pool間割当)
FairSchedulerを利用して、
複数のテナントから同時にJobが実行された場合の動作を確認
FairSchedulerでは、pool毎に設定されたMin/Max値の遵守を基本とし、
それを満たした上で、極力poolごとの割当量を平等に保つ。
クラスタの設定 合計
合計Map Slot数 8 Slots
12 Slots
合計PreFetch Slot数 4 Slots
pool A Map Slot数 pool B Map Slot数 割当Slot数
Max Min Max Min pool A pool B
未設定 未設定 実行なし 12 0 → 1Jobの場合、クラスタの全Slotを割り当てる。
10 未設定 実行なし 10 0 → Max Slot数よりも多くは割り当てない。
未設定 5 実行なし 12 0 → 1Jobの場合、Min Slot数に意味はない。
未設定 未設定 未設定 未設定 6 6 → 2Jobの場合、クラスタの全Slotを平等に割り当てる。
5 未設定 5 未設定 5 5 → 2Jobの場合も、Max Slot数が割当上限となる。
未設定 10 未設定 未設定 10 2 → Min Slot数分のSlotは、最優先で高く割り当てられる。
→ Min Slot数の合計が、合計Slot数を超えている場合、
未設定 20 未設定 10 8 4
その割合に応じてSlotが配分される。
→ Min Slot数の合計が、合計Slot数未満の場合、
未設定 7 未設定 3 7 5
余剰Slotは、割当の尐ないpoolから割り当てられる。
P 17 Copyright(C)2012 Recruit Co.,Ltd All rights reserved
19. DOC.ID 2012/02/08
MapR [検証1] Load処理, Job実行 (1/6 処理内容, 実行環境)
処理内容①: Load処理
set mapred.reduce.tasks=100;
– じゃらんPVデータ1か月分のロード。
CREATE TABLE search AS
– NFSからMFSへのロード処理を行う。 SELECT
count(row_no),
処理内容②: Job実行 (Select処理) search_engine,
– じゃらんPVデータ1か月分に対し、 search_engine_keywords
検索キーワード、検索エンジンによる FROM
GroupBy+CountのJOBを実行。(詳細右表) pv_data
GROUP BY
– 各テナントは別ユーザでJOBを実行し、 search_engine,
FairSchedulerにより別プールで管理される。 search_engine_keywords
実行環境 ;
– IBM BladeCenter HS21 × 14
CPU : Intel(R) Xeon(R) CPU 5130 @ 2.00GHz × 4コア
Memory : 8GB
Disk : 30GB × 2
Network : Gigabit Ethernet × 2
– Software/Middle ware
OS : CentOS 5.7
MapR : MapR 1.2.0
P 18 Copyright(C)2012 Recruit Co.,Ltd All rights reserved
44. DOC.ID 2012/02/08
リクルートでのMapR
早いだけじゃダメ・・・!
– もし、何かあったらどうする?
– もしがかなりの重要性をしめる場合がある
– 保守/サポートがないとすごい不安に思う人たちもい
る
– 保守サポートだとCDH(NTTデータさん)の方の圧勝
– ドキュメントやトレーニングも充実させてほしい。
もう尐し保守/サポートを強化してほしい。
P 43 Copyright(C)2012 Recruit Co.,Ltd All rights reserved
Print 12/2/13 1時10分
45. DOC.ID 2012/02/08
全社Hadoop
MapR or CDHを利用した、新しい全社Hadoop環
境を現在検討しております。
P 44 Copyright(C)2012 Recruit Co.,Ltd All rights reserved
Print 12/2/13 1時10分