TokyoWebminig カジュアルなHadoop

[TokyoWebminig]
カジュアルなHadoop
2013/03/23 @teruu

1

「カジュアル」
• MongoDB
• Pentaho ETL 私の考える
カジュアルな製品・サービス
• QlikView

• ドットインストール
• クチコミ係長（テキストマイニングWebサービス）
ドットインストール Amazon Web Services入門 (全17回)
http://dotinstall.com/lessons/basic_aws

クチコミ＠係長株式会社ホットリンク
http://www.hottolink.co.jp/kakaricho 2

「カジュアルなCRM」
by 分析力をコアとする企業

3

カジュアルなHadoop
• カジュアルという価値
• 初心者向け「鉄板プロセス」を提案できないか

Amazon EMR & Hive （WebHive）

4

Hadoopサブプロジェクト（一部）
分散ファイルシステムと汎用的な I/O（シリアライズ，Java RPC，
Core 永続的データ構造）を提供するコンポーネントとインタフェースの
集合
高効率かつ多言語間 RPC のためのデータシリアライゼーション
Avro
システムと，永続的データストレージ
分散データ処理モデルおよびコモディティマシンで構成される大
MapReduce
規模クラスタ上の実行環境
コモディティマシンで構成される大規模クラスタ上の分散ファイル
HDFS
システム
データフロー言語および超大規模データセットの調査実行環境．
Pig
HDFS およびMapRe-duce クラスタ上で実行される

列指向の分散データベース．HBase は階層のストレージとして
Hbase HDFS を使用 h し，MapReduce を使ったバッチ型の演算処理と，
一部を読み出すクエリ（ランダムリード）をともにサポートしている

高可用性分散協調サービス．分散アプリケーションを構築するの
ZooKeeper
に使われる分散ロックのような基礎的な機能要素を提供する

分散データウェアハウス．HDFS に保管されたデータを管理し，
Hive SQL に基づくクエリ言語（実行時に MapReduce のジョブに変
換される）を提供する

「Hiveを用いたログ解析システムの構築」福田一郎著 p4より引用
5
http://www.cyberagent.co.jp/technology/pdf/2010_3.pdf

参考

Hadoopファーストガイド
著者：佐々木達也

6

Amazon ElasticMapReduce（EMR）
アマゾン版Hadoop
• メリット
– 環境構築が不要
– 運用が不要
– 自動的に修正、バージョンアップ
• デメリット
– コスト（従量制）
– チューニングがしづらい

7

Hive
• 特徴
– SQL（HiveQL）が利用できる
→ 利用ユーザ拡大
– 直接Mapper、Reducerも利用可能

8

Amazon WebServices （AWS）
&
Elastic MapReduce （EMR）

登録手順

9

AWSのトップページにアクセス

10

キャンペーンの紹介

11

アカウント作成

12

アカウント情報入力

13

クレジットカード情報入力

14

電話番号入力

15

電話がかかってくる

17

サービス一覧

19

EMRの利用開始

20

利用可能なサービス

21

サービス一覧

22

バケット（ディレクトリ）作成

23

バケット作成

24

バケット作成

25

バケットの中にフォルダ作成

26

EC2のインスタンスを起動

27

イメージ選択→Amazon Linux AMI

28

インスタンスタイプ選択→マイクロ

29

インスタンスタイプ一覧

30

インスタンス追加オプション

31

キーペア作成

34

ファイアウォール設定

35

インスタンス起動

36

インスタンス起動中

37

インスタンス一覧

38

TeraTermで接続（ssh）

39

ID入力＋キー指定

41

パッケージを
アップデート

43

EMR JobFlow作成

44

Job名入力、バージョン指定

45

入出力場所の指定

46

インスタンスタイプ指定

47

その他のオプション指定

48

ブートストラップアクション指定

50

JobFlow作成完了

51

しばらく待つ → 利用可能に

52

Hiveについて

53

Hiveとは
• 2008年にFaceBookで開発され、Hadoopプロジェクトに
寄贈される。
• Yahoo!で開発しているPigのライバルプロジェクト？
• 一言で表すとHadoop上で動作するデータウエアハウ
ス。
• HiveQLというSQLのような言語でHDFSなどの分散ファ
イルシステム上のデータを操作できる。
• HiveQLの実行でMap/Reduce処理が完了する。
• 私見だが複雑なデータのMapReduceから特定のデー
タを抽出したい場合には便利かも。
Hadoopをより便利に使う！HiveでのMapReduceまとめ ‐ Yuta.Kikuchiの日記
http://d.hatena.ne.jp/yutakikuchi/20111219/1324251034 より引用 54

Hadoop & Hive の特徴

高

DB
Hadoop & Hive
アプライアンス

スループット

RDB OLTP系

低
高レイテンシー低

55

Hiveの設定
HiveQL構文(DDL)
HiveQL構文(SQL)
など、下記のブログ記事が参考になります

Hadoopをより便利に使う！HiveでのMapReduceまとめ - Yuta.Kikuchiの日記
http://d.hatena.ne.jp/yutakikuchi/20111219/1324251034

56

Hiveのデータ型

Hadoop/Hive SQLライクなクエリを使ってビッグデータ解析（前編） | Opentone Labs.
http://labs.opentone.co.jp/?p=1860 より引用 57

WebHiveについて

58

WebHive （githubで公開）

リクルート社が開発・公開 59

WebHiveの画面

60

発表のまとめ
• 初心者向け「鉄板プロセス？」として、EMR＆
Hive＆WebHiveの組合わせをご紹介
• 「カジュアル」と言いながら、進めてみるとなか
なか一筋縄ではいかないことが明らかに
• 一方で、課題解決のためのポイントがおぼろ
げながら見えてきた

61

TokyoWebminig カジュアルなHadoop

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (10)

Ähnlich wie TokyoWebminig カジュアルなHadoop

Ähnlich wie TokyoWebminig カジュアルなHadoop (20)

Mehr von Teruo Kawasaki

Mehr von Teruo Kawasaki (8)

Kürzlich hochgeladen

Kürzlich hochgeladen (11)

TokyoWebminig カジュアルなHadoop