SlideShare ist ein Scribd-Unternehmen logo
1 von 18
EMR with the MapR は
なにがうれしいの
CM re:Growth
Developers.IO Meetup 01
能登 諭
(@n3104)

2013/12/10

classmethod.jp

1
自己紹介
• 氏名:能登 諭(のと さとし)
• 得意分野:Hadoop
• 好きなAWSサービス:EC2

classmethod.jp

2
みなさん、EMR使ってますか?

classmethod.jp

3
私は使ってないですw
(前職はCDHをオンプレで
使ってました)

classmethod.jp

4
EMRとは
• http://aws.amazon.com/jp/elasticmapreduce/
• 正式名称はAmazon Elastic MapReduce。
• AWSが提供するHadoopのディストリビュー
ション。
• オンプレとの一番の違いは保守が不要な点。
• 基本的にS3に入出力ファイルを置くことにな
るため、
– HDFSの障害を考慮しなくてよくなる。
– 容量制限を気にする必要がなくなる。

classmethod.jp

5
そもそもHadoopとは
• http://hadoop.apache.org/
• HDFS(分散ファイルシステム)と
MapReduce(分散処理系)をコアとするミド
ルウェア群。
• 中心はHDFS(分散ファイルシステム)。こ
れがあるおかけでMapReduceで効率的に分散
処理ができる。

classmethod.jp

6
みなさん、EMR with the MapRを
使ってますか?

classmethod.jp

7
MapRとは
• MapR Technologiesが提供するHadoopのディ
ストリビューション。
• 一番の特徴はコアとなるHDFSをC++で書き
直している点。これによって性能を向上させ
ただけでなくスナップショットなど色々な機
能を実装している(本家Hadoopでもスナップ
ショットなどの機能は最近実装されていま
す)。

classmethod.jp

8
EMR with the MapRとは
• http://aws.amazon.com/jp/elasticmapreduce/
mapr/
• MapRをEMR上で利用できるオプション。
• AmazonのEMRを利用する場合に比べて追加
で利用料金がかかる。

classmethod.jp

9
MapRは追加料金がかかるけど、
処理性能がよいなら
もしかして安くなる?

classmethod.jp

10
ということで検証してみました。

classmethod.jp

11
検証内容
• Big Data Benchmark
– https://amplab.cs.berkeley.edu/benchmark/

• EMR上でm2.4xlargeを5台
• EMRは以下の2つ
– Amazon 2.4.2(Hadoop 1.0.3) latest
– MapR M3 3.0.2

• テストケース
– SequenceFileのScale Factor5
– a1, b1, c1 の3ケース
classmethod.jp

12
検証結果
a1

a2

a3

Amazon

125

720

767

MapR

28

279

246

※単位は秒数です

classmethod.jp

13
MapRはやい!!!
( ゚д゚)ポカーン

classmethod.jp

14
MapRの追加コスト
• http://aws.amazon.com/jp/elasticmapreduce/
mapr/
• 東京リージョンで今回利用したm2.4xlarge
(Quadruple Extra Large)の場合。
– EC2 Price : $2.02 per hour
– M3 Price : $0.42 per hour

• 今回の場合は5台たてたので、Amazonと比べ
ると1台分高いが処理時間は半分以下!つま
り、サーバー台数を半分にできる!!
classmethod.jp

15
いちどMapRについて試しては
いかがでしょうか。

classmethod.jp

16
ご静聴ありがとうございました
m(_ _)m

classmethod.jp

17
EMR with the MapRは何がうれしいの CM re:Growth

Weitere ähnliche Inhalte

Mehr von Satoshi Noto

Tez on EMRを試してみた
Tez on EMRを試してみたTez on EMRを試してみた
Tez on EMRを試してみたSatoshi Noto
 
大晦日のメッセージ配信の裏側
大晦日のメッセージ配信の裏側大晦日のメッセージ配信の裏側
大晦日のメッセージ配信の裏側Satoshi Noto
 
Fullbokをがっつり使ってみた
Fullbokをがっつり使ってみたFullbokをがっつり使ってみた
Fullbokをがっつり使ってみたSatoshi Noto
 
Run Spark on EMRってどんな仕組みになってるの?
Run Spark on EMRってどんな仕組みになってるの?Run Spark on EMRってどんな仕組みになってるの?
Run Spark on EMRってどんな仕組みになってるの?Satoshi Noto
 
Hiveハンズオン
HiveハンズオンHiveハンズオン
HiveハンズオンSatoshi Noto
 
MapReduceプログラミング入門
MapReduceプログラミング入門MapReduceプログラミング入門
MapReduceプログラミング入門Satoshi Noto
 
ただいまHadoop勉強中
ただいまHadoop勉強中ただいまHadoop勉強中
ただいまHadoop勉強中Satoshi Noto
 

Mehr von Satoshi Noto (8)

Tez on EMRを試してみた
Tez on EMRを試してみたTez on EMRを試してみた
Tez on EMRを試してみた
 
大晦日のメッセージ配信の裏側
大晦日のメッセージ配信の裏側大晦日のメッセージ配信の裏側
大晦日のメッセージ配信の裏側
 
Fullbokをがっつり使ってみた
Fullbokをがっつり使ってみたFullbokをがっつり使ってみた
Fullbokをがっつり使ってみた
 
Run Spark on EMRってどんな仕組みになってるの?
Run Spark on EMRってどんな仕組みになってるの?Run Spark on EMRってどんな仕組みになってるの?
Run Spark on EMRってどんな仕組みになってるの?
 
Hiveハンズオン
HiveハンズオンHiveハンズオン
Hiveハンズオン
 
MapReduceプログラミング入門
MapReduceプログラミング入門MapReduceプログラミング入門
MapReduceプログラミング入門
 
MapReduce入門
MapReduce入門MapReduce入門
MapReduce入門
 
ただいまHadoop勉強中
ただいまHadoop勉強中ただいまHadoop勉強中
ただいまHadoop勉強中
 

EMR with the MapRは何がうれしいの CM re:Growth