Weitere ähnliche Inhalte
Ähnlich wie ビッグデータ活用支援フォーラム (20)
Mehr von Recruit Technologies (20)
ビッグデータ活用支援フォーラム
- 5. 1.リクルートおよびシステム部門のご紹介
~リクルートについて
創 業 : 1960年3月31日
資本金 : 30億264万円
売上高 : 3,720億57百万円(2011年4月1日~2012年3月31日)
連結売上高 : 8,066億61百万円(2011年4月1日~2012年3月31日)
従業員数 : 5,974名 (2012年4月1日現在)男性:2619名・女性:3355名
代表者 : 代表取締役社長 峰岸 真澄
2012年10月
会社分割を行い、7事業会社+3機能会社のグループ体制となります
5
- 7. 1.リクルートおよびシステム部門のご紹介
(株)リクルートキャリア
事業会社
(株)リクルートジョブズ
(株)リクルートスタッフィング
(株)リクルート (株)リクルート住まいカンパニー
ホールディングス (株)リクルートライフスタイル
(株)リクルートマーケティングパートナーズ
(株)スタッフサービス・ホールディングス
(株)リクルートアドミニストレーション
機能会社
(株)リクルートコミュニケーションズ
(株)リクルートテクノロジーズ
7
- 12. 2.「新技術」に対するスタンス
新技術のR&D取り組みステップ
Gate Review Gate Review Gate Review
R-Stage Dev-Stage β-Stage 運用-Stage
・技術要素調査 ・効果的な仕組み ・正式にフィジビ ・実運用へ
・技術の実態を としてプレ実装 リティスタディ
把握する ・活用方法をさら として推進~
に開拓 展開をする
日常的に、アタリマエのように調査・検証をし続け、
新技術R&Dの 体制 や 習慣 、発想 を持ち続ける
12
- 14. 3.ビッグデータへの取り組み
新技術のR&D取り組みステップ
Gate Review Gate Review Gate Review
R-Stage Dev-Stage β-Stage 運用-Stage
・技術要素調査 ・効果的な仕組み ・正式にフィジビ ・実運用へ
・技術の実態を としてプレ実装 リティスタディ
把握する ・活用方法をさら として推進~
に開拓 展開をする
ビッグデー
タ
(Hadoop)
14
- 15. 3.ビッグデータへの取り組み
大規模データを効率的に分散処理・管理する
Hadoopとは ためのソフトウェア基盤(JAVAフレームワーク)
・MapReduce(Javaプログラム) これらで構成
マスタ ・HDFS(分散ファイルシステム)
サーバー
MapReduce MAP
(javaプログラム)
SHUFFLE
スレーブ
REDUCE
サーバー
HDFS
(分散ファイルシステム)
15
- 16. 3.ビッグデータへの取り組み
各種機能は「エコシステム」で簡単に利用
RDB
問い合わせログ PVログ
レコメンド
データ
Quest® Data Connector
これらディストリ
SQLライクな操作言語として、Hive ビューションによ
り、Hadoopを容
マイニングのライブラリとして、mahout
易に使いこなして
データ連携ツールとして、Sqoop いる
JOBスケジューリングツールとして、Azkaban 16
- 17. 3.ビッグデータへの取り組み
①Hive の活用
・いわば Hadoop上で動作するRDB
・ SQLライクな「HiveQL」で操作、処理結果は自動的に
MapReduceへ
・おもに既存機能のリプレイス系の案件で活躍する
・SQL → Hiveへ移行するだけで、低工数で簡単に
高速化が実現
見立てのために 更なる高速化のために
「とりあえずは 一部をMapReduceへ書き
Hiveで実装」 換え
17
- 18. 3.ビッグデータへの取り組み
②mahout の活用
・データマイニング系ロジックのJavaライブラリ
・「アソシエーション分析」などのアルゴリズムが用意されている
・協調フィルタリングや、アソシエーションルール
に基づくレコメンドなど
・複数の中から最適な条件を選定することが可能
行動履歴
データ レコメンド物件の
表示など
18
- 19. 3.ビッグデータへの取り組み
③Sqoop の活用
・HadoopとRDBMSとでデータをやり取りするためのしくみ
・Oracleデータベースへの高速接続を提供する「OraOop」など
・RDBMSを完全に撤廃させることなく、RDBMSと
Hadoopでデータを共有、使い分けを可能にする
・複数のRDBMSによる分析基盤作りにも有効
本番DB Hadoop
ログ 検証環境
外部本番データから
Hadoopデータに連
データ
携する
19
- 21. 3.ビッグデータへの取り組み
システム構成概要
リサーチ段階 実験・検証 第1世代環境 第2世代環境
3~4台 20台 120台 40台 (今後拡
プライベートクラウド
大)
プライベートクラウド
部分的な 完全なる
実験機 ラボ環境 環境融合 環境融合
2008~9 2010 2011 2012
Webサイトのバッチ システム移行などで 商用利用が可能な設計 プライベートクラウド
処理移植など、 余ったハードウェアを (セキュリティなど非 環境との融合を進めた
処理性能の評価・ 再利用 機能面)を施した環境 環境
研究
イマココ 21
- 22. 3.ビッグデータへの取り組み
システム構成概要 第1世代 第2世代
Apache Hadoop / CDH MapR / GreenplumMR
Heartbeat + DRBD
MasterNode1 MasterNode2 MasterNode3 MasterNode4 Node1 Node2 Node3 Node4
JobTracker JobTracker CLDB CLDB CLDB CLDB
NameNode NameNode JobTracker JobTracker JobTracker JobTracker
Secondary Secondary TaskTracker TaskTracker TaskTracker TaskTracker
NameNode NameNode FileServer FileServer FileServer FileServer
Warden
SlaveNode1 SlaveNode2 SlaveNode3 SlaveNode4 Node5 Node6 Node7 Node8
TaskTracker TaskTracker TaskTracker TaskTracker CLDB CLDB CLDB CLDB
DataNode DataNode DataNode DataNode JobTracker JobTracker JobTracker JobTracker
TaskTracker TaskTracker TaskTracker TaskTracker
FileServer FileServer FileServer FileServer
Master4台+Slave15台+batch1台の20 3Nodeから、利用リソースに応じて増
台構成をベースに利用リソースに応じ 設
てSlaveを増設
22
- 32. 4.ビッグデータの分析事例
どこにデータ活用がされているのか?
車の価格設定
条件の近いものをまとめ、一律の
保証等を付けて同一品質・同一価格を実現する
これが難しい。なぜか?
どのような項目でまとめれば良いか?
最適な値段はいくらなのか?
32
- 35. 4.ビッグデータの分析事例
既にバッチ高速化でhadoopの実用性を認識
Hadoopを活用できるのでは?
本番DB
行動履歴 Hadoop 色々試せる!
DB
外部
環境
データ
1時間半
仮説→実行→検証を高速に繰り返し
答えを導くことができた 35
- 42. 4.ビッグデータの分析事例
【システム化 対応前】
既存システムD 既存システムE
既存システムA I/F
I/F 集計① 集計結果
DBデータ・ログ
既存システムB ファイルなどの収集 整形②
営業・顧
客
整形①
既存システムC マスタデータの整形 既存システムF
やアクセスログの整
形
整形③ 集計②
集計結果
ASP
既存システムG MP
サイカタ I/F 集計
- 43. 4.ビッグデータの分析事例
【システム化 対応後】
既存システムD Hadoop EUC 既存システムE
既存システムA
I/F 集計結果
DBデータ・ログ
既存システムB ファイルなどの収集 ② 集計結果
集計 営業・顧
客
既存システムC 既存システムF
整形① ③ 他システム
連携
集計結果
ASP
MP
サイカタ
- 44. 4.ビッグデータの分析事例
主な効果(一部のみ紹介)
理想1 効果データ・集計ロジックの集約 データ遡及工数削減(▲60%)
理想2 大量データの高速処理の実現 14時間の集計処理→15分
理想3 効果分析業務の効率化 分析工数の削減(▲85%)
理想4 多様なデータの分析を可能に アトリビューション分析の実現
上記以外にも副次的な効果が多数
44
- 45. 4.ビッグデータの分析事例
その他にも…
1週間分のログをクレメンタインで 約8万人に
レコメンド計算 レコメンド
約20万人に
CVRは レコメンド
1.6倍に 1年半分 でレコメンド計算
アソシエーションルールによる
レコメンドエリアの算出
下まで閲覧すると
レコメンドバナー表出
45
- 46. 4.ビッグデータの分析事例
リスティング分
事業A サイト横断 施策シェア分析 クチコミ分析
析
事業B サイト間 モニタリング レコメンド KWD×LP分析
クロスUU 指標
事業C 予約分析
調査
事業D メルマガ施策 BI
KPIモニタリン
メール通数分析 現行応募相関 ステータス分析
事業E グ
自然語解析 行動ターゲティング LPO
事業F レコメンド ログ分析
メールレコメン
事業G 自然語解析 需要予測 クレンジング
領域間クロス ド
集客モニタリン
需要予測 レコメンド 共通バナー
事業H UU グ
カスタマープロファイル 商材分析 クライアントHP分析 カスタマートラッキング
KPIモニタリン アクション数予
事業I 効果集計
グ 測
事業J 価格分析 レコメンド クラスタリング クチコミ分析
事業K レコメンド
事業L レコメンド
事業M 効果見立て分析
46
46
- 47. 4.ビッグデータの分析事例
リスティング分
事業A サイト横断 施策シェア分析 クチコミ分析
析
サイト間
事業B
13事業に対し、
クロスUU
モニタリング
指標
レコメンド KWD×LP分析
事業C 予約分析
調査
事業D メルマガ施策 BI
KPIモニタリン
年間100件超の
メール通数分析 現行応募相関 ステータス分析
事業E グ
自然語解析 行動ターゲティング LPO
事業F レコメンド ログ分析
メールレコメン
事業G 自然語解析 需要予測 クレンジング
領域間クロス ド
集客モニタリン
データ利活用
需要予測 レコメンド 共通バナー
事業H UU グ
カスタマープロファイル 商材分析 クライアントHP分析 カスタマートラッキング
KPIモニタリン アクション数予
事業I 効果集計
グ 測
事業J 価格分析 レコメンド クラスタリング クチコミ分析
事業K レコメンド
事業L レコメンド を展開中
事業M 効果見立て分析
47
47
- 50. 5.今後の展望
with 自然言語処理 DWH
KVS
:Hadoop+Mahout(マイニング)+Lucene(形態素分解)ほか 活用 or
➤ クチコミ分析、レコメンドメールなどへ応用展開 RDB
with リアルタイム分析
:S4・STORM(リアルタイム分散処理プラットフォーム) ほか 活用
➤ リアルタイムレコメンド、フラッシュマーケティングなど
with スマートデバイス
:音声解析(Siri)・位置情報の取り込み、画像データの取り込み ほか
➤ ユーザ属性×GPS(行動履歴)分析による店舗情報プッシュなど
50
- 51. 5.今後の展望
最新情報はHadoopカンファレンスにて!
2011年度の開催実績
・会場:ベルサール汐留
・参加人数:約1,000名
・講演:Cloudera社 Todd Lipcon氏 ほか
・特色:専用のQAサイト、無料ランチ提供
本年度もカンファレンス開催予定で
す。ご興味のある方は
ぜひ足を運んでください!
51