SlideShare ist ein Scribd-Unternehmen logo
1 von 48
Downloaden Sie, um offline zu lesen
(C) Recruit Technologies Co.,Ltd. All rights reserved.
2015年7月15日
リクルートテクノロジーズ
ITソリューション統括部ビッグデータ部
野村 健
変わる!?リクルートグループ
のデータ解析基盤
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentはじめに
本日お伝えしたいこと
リクルートグループのデータ活用状況について1
データ活用をしていく中で、でてきた課題感に対する
対応について2
1
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department自己紹介
野村 健
〜2009年:
・電気メーカのソフトウェア開発会社に勤務
・交通管制システムの導入
- 主に、旅行時間情報の算出
- 運用管理システムの構築
〜2014年:
・某SIer会社に勤務
・通信キャリアのログ分析基盤のアーキテクチャ設計
・デジタルコンテンツのレコメンドシステムのアーキテクチャ設計
・+5年 Hadoopなど並列分散処理関連の経験
2014年11月〜:
・リクルートテクノロジーズにて、R&D及びHadoop基盤運用を担当
2
(C) Recruit Technologies Co.,Ltd. All rights reserved.
1
2 最近のデータ活用状況紹介
3
4
5
6
ビッグデータへの取り組み
データ活用における課題
新たなデータ解析基盤の要件
現状の取り組み
アジェンダ
まとめと今後の展望
3
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
ビッグデータへの取り組み
4
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentビッグデータへの取組みの歴史
2012年
Hadoop
活用拡大
DWH導入展開
ほぼ全ての事業で
Hadoopの活用を実施
ビッグデータ活用基盤
を拡充(DWH等)
2011年
Hadoopの
本格展開
各サイトで本格展開を
開始、11事業40案件
に適用
Hadoopカンファレンス
をR後援で開催
2010年
高速集計基盤
の研究
Hadoopのリサーチを
開始、この段階の投資
は最小限に抑えサーバ
はWebオークションで
調達
2013年~
全社規模
BI導入展開
ビッグデータの
さらなる活用/
用途拡大に向けた
全社統合DWH構築
リサーチ環境 第1世代Hadoop 第2世代Hadoop
/DWH
BI基盤
5
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentビッグデータ基盤構成概要
 DWH/Hadoopを中心としたデータ格納領域に各事業等からデータを収集。
 様々な利用シーンに対応し、「高速化を追求する」基盤を目指している。
6
データソース データ格納 プレゼンテーション 利用者
事業データ
行動データ
プッシュ基盤ログ
経営データ
経営データ
外部データ
IPアドレスデータ
行動履歴情報
オンプレミス
Redshift
Hadoop
エコシステム
高度分析やモデル作成
レポート/モニタリング
ビジネスインサイト
(マーケター)
機械学習やモデル実装
エンドユーザー
(エグゼ/営業
/マネージャ)
マーケター
(プロデューサ/事業
企画)
データ
サイエンティスト
(高度分析者)
データ
サイエンティスト
(エンジニア)
ツールバーデータ
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
最近のデータ活用状況紹介
7
(C) Recruit Technologies Co.,Ltd. All rights reserved.
Server Database
数値で見るデータ解析環境
エコシステム
本番98台/開発24台 1 PB
8
(C) Recruit Technologies Co.,Ltd. All rights reserved.
数値で見るHadoopの使われ方
28,344
1,038
万
1日あたりの全JOBの数
1日あたりの全Hbaseクエリの数
リクルートグループ全体
リクルートグループ全体
9
(C) Recruit Technologies Co.,Ltd. All rights reserved.
数値で見るデータ解析案件状況
約200 データ解析案件数(年間)
ビッグデータ部の案件従事人数 240
リクルートテクノロジーズ内での人数(パートナーも含む)
リクルートテクノロジーズ内での案件数
10
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentビッグデータ活用における体制
リクルートグループでは、分析業務に対して以下の3つの役割を
定義し案件を推進!
(「コンサル型」+「エンジニア型」)×マーケター
コンサル型 エンジニア型
事業担当者
≒マーケターリクルートテクノロジーズ
ビッグデータグループ
Hadoopエンジニア
分析者
11
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
データドリブンの意思決定・施策 【数が多い】
(レコメンド・BI・予測・リアルタイム・非構造)
施策ひとつひとつがより難易度高くかつ長期に【質が高い】
①シナリオマーケティング、②リアルタイムレコメンド、
③画像解析 etc
事業担当者
≒マーケター
の知識向上、データドリブン施策の
重要性が認識・拡散。
ここ数年での変化①
12
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department一般物体認識:スパースコーディング+SVM
一般物体認識: 画像に映った物を特定する処理
① 画像をベクトルに変換するencoderの作成
② encoderで画像をベクトルに変換
③ 教師データのベクトルを用いて判別モデルを生成
④ 未知の画像を②でベクトルに変換
⑤ ③のモデルに④を通し物体を特定
カスタマが興味のある画像に、何が映っているかを特定し、
検索の軸としたり、レコメンド利用の可能性がある
13
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
特定の技術上で施作実行 【種類が少ない】
(MapReduce/Mahout/Hive/HBase)
施策特性に合わせたエコシス/インフラ環境の活用【種類が増加】
①YARN+Tez、②Spark(Spark Streaming)、
③Impala、④ AWS/TreasureData etc
事業からの要望の高度化から、施策特性
に合わせた技術の選択。
ここ数年での変化②
エンジニア型
分析者
事業担当者
≒マーケター
14
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department取り掛かり中(一部やりたい)のテーマ紹介
Titan
グラフ画像解析
テキスト
解析
ストリーム分散SQL
15
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
データ活用における課題
16
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
データマネジメント
データ活用における課題
2
データ連携負荷1
17
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department1. データ連携負荷
個別環境が乱立
困ったなぁ~
18
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department1. データ連携負荷
Oracle
ユーザ
行動ログ
ログ
(システム/
アプリ)
Adobe
ログ検索BI/DWH
レコメンド
エンジン
モニタ
リング
Hadoop
19
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
AWS
1. データ連携負荷
OracleS3/SQS
ユーザ
行動ログ
ログ
(システム/
アプリ)
AdobeTreasure
Data
ログ検索BI/DWH
レコメンド
エンジン
モニタ
リング
HadoopExaData
プッシュ
基盤
20
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department2. データマネジメント
個別の
データ品質チェックなど
共通化できないかな?
21
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
AWS
2. データマネジメント
OracleS3/SQS
ユーザ
行動ログ
ログ
(システム/
アプリ)
AdobeTreasure
Data
ログ検索BI/DWH
レコメンド
エンジン
モニタ
リング
HadoopExaData
プッシュ
基盤
品質担保品質担保品質担保品質担保 品質担保品質担保 品質担保
22
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
AWS
データ連携・マネジメントに対する課題について
OracleS3/SQS
ユーザ
行動ログ
ログ
(システム/
アプリ)
AdobeTreasure
Data
ログ検索BI/DWH
レコメンド
エンジン
モニタ
リング
HadoopExaData
プッシュ
基盤
データコネクト
基盤
品質担保
23
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
新たなデータ解析基盤の要件
24
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department新たなデータ解析基盤の要件とは
1. データソースの多様性
2. データライフサイクル管理
3. データ品質管理
25
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department新たなデータ解析基盤の要件とは
1. データソースの多様性
2. データライフサイクル管理
3. データ品質管理
26
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータソースの多様性
REST API
FTPサーバ
データ
コレクタ
 リアルタイムデータとバッチデータのコレクト・フィード対応
データ
フィード
27
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department新たなデータ解析基盤の要件とは
1. データソースの多様性
2. データライフサイクル管理
3. データ品質管理
28
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータライフサイクル管理
データ活用の観点2
システム監査の観点1
29
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータライフサイクル管理
 システム監査の観点
アプリサーバなど
データコネクト データ処理
ログ分析基盤
 いつ生成されたデータなのか?
 どこで生成されたデータなのか?
社内データセンタ
30
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータライフサイクル管理
 システム監査の観点
アプリサーバなど
データコネクト データ処理
ログ分析基盤
 どの経路から来たデータなのか?
社内データセンタ
31
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータライフサイクル管理
 システム監査の観点
アプリサーバなど
社内データセンタ
データコネクト データ処理
ログ分析基盤
 どのデータを元に生成されたのか?
 データフローの管理者は誰か?
 誰がどのようにアクセスするのか?
32
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータライフサイクル管理
 データ活用の観点
 特定用途による管理
• BI用の列指向ファイルフォーマットなど
生データ
BI用データ
レコメンドエンジン用
データ
・・・
33
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータライフサイクル管理
 データ活用の観点
 時系列による管理
• 過去の不必要なデータのクリーニング
直近 1ヶ月後 2ヶ月後 1年後 N年後
・・・ ・・・
削除
34
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータライフサイクル管理
 データ活用の観点
 利用頻度・SLA・コストによる管理
• 蓄積デバイス、HDFSのレプリケーション数などの最適化
・・・ ・・・
利用頻度高 低
35
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータライフサイクル管理
 データ活用の観点
 利用者権限による管理
• ロールベースによる権限毎のデータ分離
生データ
(マスキングや暗号化
など対策済み)
マーケター
用データ
分析者用データ
・・・
事業担当者
≒マーケター
分析者
36
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department新たなデータ解析基盤の要件とは
1. データソースの多様性
2. データライフサイクル管理
3. データ品質管理
37
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータ品質管理
 機密項目(マスキング/暗号化etc)
 スキーマ互換性の担保
 メタデータ管理
 監査用ユニークID管理
ポリシー定義に基づく品質管理
品質
チェック
データ
蓄積
ポリシー
チェック
破棄
データ
38
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
現状の取り組み
39
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentフィジビリ検証予定の内容について
 フィジビリ検証予定のシステム概要について
 ユーザの行動をニアリアルタイムに把握し、
サービスレベルを向上したい
 ログの活用先の増加が想定されるので、データ
連携先の追加がしやすい仕組みにしておきたい
 ログの活用に不要な情報に対して、暗号化・
マスキングなどの対策コストを抑えたい
40
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentフィジビリ検証予定の内容について
 フィジビリ検証予定のシステム概要について
① 事業サイトのログに対し、暗号化・マスキングなどデータの品質及びセキュリティ担保
② データ活用側へ必要なデータのみ限定できるよう、データパイプラインを定義
③ データ活用側が今後増えていくことを見越し、連携方式を統一し連携負荷軽減
アプリサーバ
Agent
アプリサーバ
Agent
事業
サイト
マスタ
システム
生ログ-アプリ
ETL済ログ-アプリ
変換 蓄積品質
モニタリング基盤
ログ解析基盤
生ログ-アプリ
ETL済ログ-アプリ
変換 蓄積品質
①②
③
41
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department検証実施中の内容について
 フィジビリ検証予定のシステム概要について
④ ユーザ行動をニアリアルタイムに分析し、予測モデルによる検知からプッシュ基盤などへ
のアクション通知へ(のちのちは、オンライン学習などもできたら)
アプリサーバ
Agent
アプリサーバ
Agent
事業
サイト
マスタ
システム
生ログ-アプリ
ETL済ログ-アプリ
変換 蓄積品質
プッシュ基盤
生ログ-アプリ
ETL済ログ-アプリ
変換 蓄積品質
オン
ライン
予測
通知検知
④
42
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
Hadoop YARN
新たなデータ解析基盤への取り組み
 検討中のシステム構成概要案
セキュリティ
ポリシー
メタデータ
リポジトリ
データ
変換
データ
品質管理
データ
蓄積
データ
フィード
モニタリング
MRv2
データコネクト/データリポジトリ
リアルタイム/バッチ API
データ
コレクタ
データライフ
サイクル管理
データ
受信
43
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
まとめと今後の展望
44
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
事業担当者の案件施策に対するデータ連携負荷を軽減し、
リクルートグループ内での更なるデータ利活用促進を目指す
まとめと今後
2
新技術は積極的に試し、事業サービスでの利用可能性を
常に模索していく3
ストリームデータから導入を始め、既存のバッチへ横展開
そして、共通機能化をしていく
1
45
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department一緒に戦ってくれる仲間募集中
本日の「データマネジメント」はデータ解析基盤
の1テーマであり他にも取り組んでいます。
RTCでは、一緒に働く
仲間を求めてます!!
 リアルタイムデータ解析処理
 リソースマネジメントの効率化
 データ分析者向けユーザインタフェース etc…
リクルートテクノロジーズ
ITソリューション統括部ビッグデータ部
野村 健<nomura_takeshi@r.recruit.co.jp>
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
ご清聴ありがとうございました
リクルートテクノロジーズ

Weitere ähnliche Inhalte

Was ist angesagt?

AWSでのセキュリティ運用 ~ IAM,VPCその他
AWSでのセキュリティ運用 ~IAM,VPCその他AWSでのセキュリティ運用 ~IAM,VPCその他
AWSでのセキュリティ運用 ~ IAM,VPCその他Recruit Technologies
 
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例Amazon Web Services Japan
 
[よくわかるクラウドデータベース] Amazon RDS for SQL Server導入事例
[よくわかるクラウドデータベース] Amazon RDS for SQL Server導入事例[よくわかるクラウドデータベース] Amazon RDS for SQL Server導入事例
[よくわかるクラウドデータベース] Amazon RDS for SQL Server導入事例Amazon Web Services Japan
 
リクルートにおけるPaaS活用事例
リクルートにおけるPaaS活用事例リクルートにおけるPaaS活用事例
リクルートにおけるPaaS活用事例Recruit Technologies
 
リクルートにおけるhadoop活用事例+α
リクルートにおけるhadoop活用事例+αリクルートにおけるhadoop活用事例+α
リクルートにおけるhadoop活用事例+αRecruit Technologies
 
リクルートライフスタイルの考える ストリームデータの活かし方(Hadoop Spark Conference2016)
リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)
リクルートライフスタイルの考える ストリームデータの活かし方(Hadoop Spark Conference2016)Atsushi Kurumada
 
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法Tetsutaro Watanabe
 
リクルート式Hadoopの使い方
リクルート式Hadoopの使い方リクルート式Hadoopの使い方
リクルート式Hadoopの使い方Recruit Technologies
 
リクルートのWebサービスを支える「RAFTEL」
リクルートのWebサービスを支える「RAFTEL」リクルートのWebサービスを支える「RAFTEL」
リクルートのWebサービスを支える「RAFTEL」Recruit Technologies
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みRecruit Technologies
 
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分けビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分けRecruit Technologies
 
Spark/MapReduceの 機械学習ライブラリ比較検証
Spark/MapReduceの 機械学習ライブラリ比較検証Spark/MapReduceの 機械学習ライブラリ比較検証
Spark/MapReduceの 機械学習ライブラリ比較検証Recruit Technologies
 
DeNAでのVertica運用
DeNAでのVertica運用DeNAでのVertica運用
DeNAでのVertica運用Shota Suzuki
 
レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証
レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証
レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証Recruit Technologies
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料Recruit Technologies
 
DX認定制度システム開発裏話:技術編
DX認定制度システム開発裏話:技術編DX認定制度システム開発裏話:技術編
DX認定制度システム開発裏話:技術編Arichika TANIGUCHI
 
ビッグデータ処理データベースの全体像と使い分け
2018年version
ビッグデータ処理データベースの全体像と使い分け
2018年versionビッグデータ処理データベースの全体像と使い分け
2018年version
ビッグデータ処理データベースの全体像と使い分け
2018年versionTetsutaro Watanabe
 
Spark勉強会_ibm_20151014-公開版
Spark勉強会_ibm_20151014-公開版Spark勉強会_ibm_20151014-公開版
Spark勉強会_ibm_20151014-公開版Atsushi Tsuchiya
 

Was ist angesagt? (20)

AWSでのセキュリティ運用 ~ IAM,VPCその他
AWSでのセキュリティ運用 ~IAM,VPCその他AWSでのセキュリティ運用 ~IAM,VPCその他
AWSでのセキュリティ運用 ~ IAM,VPCその他
 
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
 
[よくわかるクラウドデータベース] Amazon RDS for SQL Server導入事例
[よくわかるクラウドデータベース] Amazon RDS for SQL Server導入事例[よくわかるクラウドデータベース] Amazon RDS for SQL Server導入事例
[よくわかるクラウドデータベース] Amazon RDS for SQL Server導入事例
 
リクルートにおけるPaaS活用事例
リクルートにおけるPaaS活用事例リクルートにおけるPaaS活用事例
リクルートにおけるPaaS活用事例
 
リクルートにおけるhadoop活用事例+α
リクルートにおけるhadoop活用事例+αリクルートにおけるhadoop活用事例+α
リクルートにおけるhadoop活用事例+α
 
リクルートライフスタイルの考える ストリームデータの活かし方(Hadoop Spark Conference2016)
リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)
リクルートライフスタイルの考える ストリームデータの活かし方(Hadoop Spark Conference2016)
 
WebDB Forum 2013
WebDB Forum 2013 WebDB Forum 2013
WebDB Forum 2013
 
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
 
リクルート式Hadoopの使い方
リクルート式Hadoopの使い方リクルート式Hadoopの使い方
リクルート式Hadoopの使い方
 
リクルートのWebサービスを支える「RAFTEL」
リクルートのWebサービスを支える「RAFTEL」リクルートのWebサービスを支える「RAFTEL」
リクルートのWebサービスを支える「RAFTEL」
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
 
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分けビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
 
Spark/MapReduceの 機械学習ライブラリ比較検証
Spark/MapReduceの 機械学習ライブラリ比較検証Spark/MapReduceの 機械学習ライブラリ比較検証
Spark/MapReduceの 機械学習ライブラリ比較検証
 
DeNAでのVertica運用
DeNAでのVertica運用DeNAでのVertica運用
DeNAでのVertica運用
 
RANCHERを使ったDev(Ops)
RANCHERを使ったDev(Ops)RANCHERを使ったDev(Ops)
RANCHERを使ったDev(Ops)
 
レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証
レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証
レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料
 
DX認定制度システム開発裏話:技術編
DX認定制度システム開発裏話:技術編DX認定制度システム開発裏話:技術編
DX認定制度システム開発裏話:技術編
 
ビッグデータ処理データベースの全体像と使い分け
2018年version
ビッグデータ処理データベースの全体像と使い分け
2018年versionビッグデータ処理データベースの全体像と使い分け
2018年version
ビッグデータ処理データベースの全体像と使い分け
2018年version
 
Spark勉強会_ibm_20151014-公開版
Spark勉強会_ibm_20151014-公開版Spark勉強会_ibm_20151014-公開版
Spark勉強会_ibm_20151014-公開版
 

Andere mochten auch

【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)Developers Summit
 
Amazon Redshiftによるリアルタイム分析サービスの構築
Amazon Redshiftによるリアルタイム分析サービスの構築Amazon Redshiftによるリアルタイム分析サービスの構築
Amazon Redshiftによるリアルタイム分析サービスの構築Minero Aoki
 
DeNAの分析を支える分析基盤
DeNAの分析を支える分析基盤DeNAの分析を支える分析基盤
DeNAの分析を支える分析基盤Kenshin Yamada
 
Cookpad TechConf 2016 - DWHに必要なこと
Cookpad TechConf 2016 - DWHに必要なことCookpad TechConf 2016 - DWHに必要なこと
Cookpad TechConf 2016 - DWHに必要なことMinero Aoki
 
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-Makoto SHIMURA
 
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016Cloudera Japan
 

Andere mochten auch (6)

【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
 
Amazon Redshiftによるリアルタイム分析サービスの構築
Amazon Redshiftによるリアルタイム分析サービスの構築Amazon Redshiftによるリアルタイム分析サービスの構築
Amazon Redshiftによるリアルタイム分析サービスの構築
 
DeNAの分析を支える分析基盤
DeNAの分析を支える分析基盤DeNAの分析を支える分析基盤
DeNAの分析を支える分析基盤
 
Cookpad TechConf 2016 - DWHに必要なこと
Cookpad TechConf 2016 - DWHに必要なことCookpad TechConf 2016 - DWHに必要なこと
Cookpad TechConf 2016 - DWHに必要なこと
 
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
 
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016
 

Ähnlich wie 変わる!? リクルートグループのデータ解析基盤

リクルートにおけるデータのインフラ化への取組
リクルートにおけるデータのインフラ化への取組リクルートにおけるデータのインフラ化への取組
リクルートにおけるデータのインフラ化への取組Recruit Technologies
 
リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例Tetsutaro Watanabe
 
RWC2012(松江市&テクノプロジェクト)
RWC2012(松江市&テクノプロジェクト)RWC2012(松江市&テクノプロジェクト)
RWC2012(松江市&テクノプロジェクト)Techno Project Co., Ltd.
 
Micrometer/Prometheusによる大規模システムモニタリング #jsug #sf_26
Micrometer/Prometheusによる大規模システムモニタリング #jsug #sf_26Micrometer/Prometheusによる大規模システムモニタリング #jsug #sf_26
Micrometer/Prometheusによる大規模システムモニタリング #jsug #sf_26Yahoo!デベロッパーネットワーク
 
巨大なサービスと膨大なデータを支えるプラットフォーム

巨大なサービスと膨大なデータを支えるプラットフォーム
巨大なサービスと膨大なデータを支えるプラットフォーム

巨大なサービスと膨大なデータを支えるプラットフォーム
Tetsutaro Watanabe
 
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。 複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。 Insight Technology, Inc.
 
[C32] 正確でスピーディーな決断を促す、日立の高速データアクセス基盤~性能検証事例と活用効果~ by Taichi Ishikawa
[C32] 正確でスピーディーな決断を促す、日立の高速データアクセス基盤~性能検証事例と活用効果~ by Taichi Ishikawa[C32] 正確でスピーディーな決断を促す、日立の高速データアクセス基盤~性能検証事例と活用効果~ by Taichi Ishikawa
[C32] 正確でスピーディーな決断を促す、日立の高速データアクセス基盤~性能検証事例と活用効果~ by Taichi IshikawaInsight Technology, Inc.
 
[db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ! by 株式会社日立製作所 村上順一
 [db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ!  by 株式会社日立製作所 村上順一 [db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ!  by 株式会社日立製作所 村上順一
[db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ! by 株式会社日立製作所 村上順一Insight Technology, Inc.
 
R&D部門におけるデータ共有・利活用はなぜ難しいのか
R&D部門におけるデータ共有・利活用はなぜ難しいのかR&D部門におけるデータ共有・利活用はなぜ難しいのか
R&D部門におけるデータ共有・利活用はなぜ難しいのか恵 桂木
 
R&D部門におけるデータ共有・利活用はなぜ難しいのか
R&D部門におけるデータ共有・利活用はなぜ難しいのかR&D部門におけるデータ共有・利活用はなぜ難しいのか
R&D部門におけるデータ共有・利活用はなぜ難しいのか恵 桂木
 
R&D部門におけるデータ共有・利活用はなぜ難しいのか
R&D部門におけるデータ共有・利活用はなぜ難しいのかR&D部門におけるデータ共有・利活用はなぜ難しいのか
R&D部門におけるデータ共有・利活用はなぜ難しいのか恵 桂木
 
R&D部門におけるデータ共有・利活用はなぜ難しいのか
R&D部門におけるデータ共有・利活用はなぜ難しいのかR&D部門におけるデータ共有・利活用はなぜ難しいのか
R&D部門におけるデータ共有・利活用はなぜ難しいのか恵 桂木
 
ITIL準拠のツールでアジャイルな変革を実現
ITIL準拠のツールでアジャイルな変革を実現ITIL準拠のツールでアジャイルな変革を実現
ITIL準拠のツールでアジャイルな変革を実現UNIRITA Incorporated
 
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例Recruit Technologies
 
AI/MLシステムにおけるビッグデータとの付き合い方
AI/MLシステムにおけるビッグデータとの付き合い方AI/MLシステムにおけるビッグデータとの付き合い方
AI/MLシステムにおけるビッグデータとの付き合い方Shota Suzuki
 
Redshift Spectrumを使ってみた話
Redshift Spectrumを使ってみた話Redshift Spectrumを使ってみた話
Redshift Spectrumを使ってみた話Yoshiki Kouno
 
MonotaRO のデータ活用と基盤の過去、現在、未来
MonotaRO のデータ活用と基盤の過去、現在、未来 MonotaRO のデータ活用と基盤の過去、現在、未来
MonotaRO のデータ活用と基盤の過去、現在、未来 株式会社MonotaRO Tech Team
 
要求開発アライアンス 9月定例会議
要求開発アライアンス 9月定例会議要求開発アライアンス 9月定例会議
要求開発アライアンス 9月定例会議Atsushi Takayasu
 

Ähnlich wie 変わる!? リクルートグループのデータ解析基盤 (20)

リクルートにおけるデータのインフラ化への取組
リクルートにおけるデータのインフラ化への取組リクルートにおけるデータのインフラ化への取組
リクルートにおけるデータのインフラ化への取組
 
リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例
 
RWC2012(松江市&テクノプロジェクト)
RWC2012(松江市&テクノプロジェクト)RWC2012(松江市&テクノプロジェクト)
RWC2012(松江市&テクノプロジェクト)
 
Micrometer/Prometheusによる大規模システムモニタリング #jsug #sf_26
Micrometer/Prometheusによる大規模システムモニタリング #jsug #sf_26Micrometer/Prometheusによる大規模システムモニタリング #jsug #sf_26
Micrometer/Prometheusによる大規模システムモニタリング #jsug #sf_26
 
巨大なサービスと膨大なデータを支えるプラットフォーム

巨大なサービスと膨大なデータを支えるプラットフォーム
巨大なサービスと膨大なデータを支えるプラットフォーム

巨大なサービスと膨大なデータを支えるプラットフォーム

 
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。 複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
 
[C32] 正確でスピーディーな決断を促す、日立の高速データアクセス基盤~性能検証事例と活用効果~ by Taichi Ishikawa
[C32] 正確でスピーディーな決断を促す、日立の高速データアクセス基盤~性能検証事例と活用効果~ by Taichi Ishikawa[C32] 正確でスピーディーな決断を促す、日立の高速データアクセス基盤~性能検証事例と活用効果~ by Taichi Ishikawa
[C32] 正確でスピーディーな決断を促す、日立の高速データアクセス基盤~性能検証事例と活用効果~ by Taichi Ishikawa
 
[db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ! by 株式会社日立製作所 村上順一
 [db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ!  by 株式会社日立製作所 村上順一 [db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ!  by 株式会社日立製作所 村上順一
[db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ! by 株式会社日立製作所 村上順一
 
R&D部門におけるデータ共有・利活用はなぜ難しいのか
R&D部門におけるデータ共有・利活用はなぜ難しいのかR&D部門におけるデータ共有・利活用はなぜ難しいのか
R&D部門におけるデータ共有・利活用はなぜ難しいのか
 
R&D部門におけるデータ共有・利活用はなぜ難しいのか
R&D部門におけるデータ共有・利活用はなぜ難しいのかR&D部門におけるデータ共有・利活用はなぜ難しいのか
R&D部門におけるデータ共有・利活用はなぜ難しいのか
 
ils202202
ils202202ils202202
ils202202
 
R&D部門におけるデータ共有・利活用はなぜ難しいのか
R&D部門におけるデータ共有・利活用はなぜ難しいのかR&D部門におけるデータ共有・利活用はなぜ難しいのか
R&D部門におけるデータ共有・利活用はなぜ難しいのか
 
ils202202
ils202202ils202202
ils202202
 
R&D部門におけるデータ共有・利活用はなぜ難しいのか
R&D部門におけるデータ共有・利活用はなぜ難しいのかR&D部門におけるデータ共有・利活用はなぜ難しいのか
R&D部門におけるデータ共有・利活用はなぜ難しいのか
 
ITIL準拠のツールでアジャイルな変革を実現
ITIL準拠のツールでアジャイルな変革を実現ITIL準拠のツールでアジャイルな変革を実現
ITIL準拠のツールでアジャイルな変革を実現
 
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
 
AI/MLシステムにおけるビッグデータとの付き合い方
AI/MLシステムにおけるビッグデータとの付き合い方AI/MLシステムにおけるビッグデータとの付き合い方
AI/MLシステムにおけるビッグデータとの付き合い方
 
Redshift Spectrumを使ってみた話
Redshift Spectrumを使ってみた話Redshift Spectrumを使ってみた話
Redshift Spectrumを使ってみた話
 
MonotaRO のデータ活用と基盤の過去、現在、未来
MonotaRO のデータ活用と基盤の過去、現在、未来 MonotaRO のデータ活用と基盤の過去、現在、未来
MonotaRO のデータ活用と基盤の過去、現在、未来
 
要求開発アライアンス 9月定例会議
要求開発アライアンス 9月定例会議要求開発アライアンス 9月定例会議
要求開発アライアンス 9月定例会議
 

Mehr von Recruit Technologies

新卒2年目が鍛えられたコードレビュー道場
新卒2年目が鍛えられたコードレビュー道場新卒2年目が鍛えられたコードレビュー道場
新卒2年目が鍛えられたコードレビュー道場Recruit Technologies
 
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学びカーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学びRecruit Technologies
 
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~Recruit Technologies
 
HadoopをBQにマイグレしようとしてる話
HadoopをBQにマイグレしようとしてる話HadoopをBQにマイグレしようとしてる話
HadoopをBQにマイグレしようとしてる話Recruit Technologies
 
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所Recruit Technologies
 
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...Recruit Technologies
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントRecruit Technologies
 
ユーザーからみたre:Inventのこれまでと今後
ユーザーからみたre:Inventのこれまでと今後ユーザーからみたre:Inventのこれまでと今後
ユーザーからみたre:Inventのこれまでと今後Recruit Technologies
 
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-Recruit Technologies
 
EMRでスポットインスタンスの自動入札ツールを作成する
EMRでスポットインスタンスの自動入札ツールを作成するEMRでスポットインスタンスの自動入札ツールを作成する
EMRでスポットインスタンスの自動入札ツールを作成するRecruit Technologies
 
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイントリクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイントRecruit Technologies
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントRecruit Technologies
 
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルリクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルRecruit Technologies
 
「リクルートデータセット」 ~公開までの道のりとこれから~
「リクルートデータセット」 ~公開までの道のりとこれから~「リクルートデータセット」 ~公開までの道のりとこれから~
「リクルートデータセット」 ~公開までの道のりとこれから~Recruit Technologies
 
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~Recruit Technologies
 
リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介Recruit Technologies
 

Mehr von Recruit Technologies (20)

新卒2年目が鍛えられたコードレビュー道場
新卒2年目が鍛えられたコードレビュー道場新卒2年目が鍛えられたコードレビュー道場
新卒2年目が鍛えられたコードレビュー道場
 
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学びカーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
 
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
 
Tableau活用4年の軌跡
Tableau活用4年の軌跡Tableau活用4年の軌跡
Tableau活用4年の軌跡
 
HadoopをBQにマイグレしようとしてる話
HadoopをBQにマイグレしようとしてる話HadoopをBQにマイグレしようとしてる話
HadoopをBQにマイグレしようとしてる話
 
LT(自由)
LT(自由)LT(自由)
LT(自由)
 
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
 
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
 
リクルート式AIの活用法
リクルート式AIの活用法リクルート式AIの活用法
リクルート式AIの活用法
 
銀行ロビーアシスタント
銀行ロビーアシスタント銀行ロビーアシスタント
銀行ロビーアシスタント
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイント
 
ユーザーからみたre:Inventのこれまでと今後
ユーザーからみたre:Inventのこれまでと今後ユーザーからみたre:Inventのこれまでと今後
ユーザーからみたre:Inventのこれまでと今後
 
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
 
EMRでスポットインスタンスの自動入札ツールを作成する
EMRでスポットインスタンスの自動入札ツールを作成するEMRでスポットインスタンスの自動入札ツールを作成する
EMRでスポットインスタンスの自動入札ツールを作成する
 
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイントリクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイント
 
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルリクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
 
「リクルートデータセット」 ~公開までの道のりとこれから~
「リクルートデータセット」 ~公開までの道のりとこれから~「リクルートデータセット」 ~公開までの道のりとこれから~
「リクルートデータセット」 ~公開までの道のりとこれから~
 
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
 
リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介
 

変わる!? リクルートグループのデータ解析基盤

  • 1. (C) Recruit Technologies Co.,Ltd. All rights reserved. 2015年7月15日 リクルートテクノロジーズ ITソリューション統括部ビッグデータ部 野村 健 変わる!?リクルートグループ のデータ解析基盤
  • 2. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentはじめに 本日お伝えしたいこと リクルートグループのデータ活用状況について1 データ活用をしていく中で、でてきた課題感に対する 対応について2 1
  • 3. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department自己紹介 野村 健 〜2009年: ・電気メーカのソフトウェア開発会社に勤務 ・交通管制システムの導入 - 主に、旅行時間情報の算出 - 運用管理システムの構築 〜2014年: ・某SIer会社に勤務 ・通信キャリアのログ分析基盤のアーキテクチャ設計 ・デジタルコンテンツのレコメンドシステムのアーキテクチャ設計 ・+5年 Hadoopなど並列分散処理関連の経験 2014年11月〜: ・リクルートテクノロジーズにて、R&D及びHadoop基盤運用を担当 2
  • 4. (C) Recruit Technologies Co.,Ltd. All rights reserved. 1 2 最近のデータ活用状況紹介 3 4 5 6 ビッグデータへの取り組み データ活用における課題 新たなデータ解析基盤の要件 現状の取り組み アジェンダ まとめと今後の展望 3
  • 5. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department ビッグデータへの取り組み 4
  • 6. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentビッグデータへの取組みの歴史 2012年 Hadoop 活用拡大 DWH導入展開 ほぼ全ての事業で Hadoopの活用を実施 ビッグデータ活用基盤 を拡充(DWH等) 2011年 Hadoopの 本格展開 各サイトで本格展開を 開始、11事業40案件 に適用 Hadoopカンファレンス をR後援で開催 2010年 高速集計基盤 の研究 Hadoopのリサーチを 開始、この段階の投資 は最小限に抑えサーバ はWebオークションで 調達 2013年~ 全社規模 BI導入展開 ビッグデータの さらなる活用/ 用途拡大に向けた 全社統合DWH構築 リサーチ環境 第1世代Hadoop 第2世代Hadoop /DWH BI基盤 5
  • 7. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentビッグデータ基盤構成概要  DWH/Hadoopを中心としたデータ格納領域に各事業等からデータを収集。  様々な利用シーンに対応し、「高速化を追求する」基盤を目指している。 6 データソース データ格納 プレゼンテーション 利用者 事業データ 行動データ プッシュ基盤ログ 経営データ 経営データ 外部データ IPアドレスデータ 行動履歴情報 オンプレミス Redshift Hadoop エコシステム 高度分析やモデル作成 レポート/モニタリング ビジネスインサイト (マーケター) 機械学習やモデル実装 エンドユーザー (エグゼ/営業 /マネージャ) マーケター (プロデューサ/事業 企画) データ サイエンティスト (高度分析者) データ サイエンティスト (エンジニア) ツールバーデータ
  • 8. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department 最近のデータ活用状況紹介 7
  • 9. (C) Recruit Technologies Co.,Ltd. All rights reserved. Server Database 数値で見るデータ解析環境 エコシステム 本番98台/開発24台 1 PB 8
  • 10. (C) Recruit Technologies Co.,Ltd. All rights reserved. 数値で見るHadoopの使われ方 28,344 1,038 万 1日あたりの全JOBの数 1日あたりの全Hbaseクエリの数 リクルートグループ全体 リクルートグループ全体 9
  • 11. (C) Recruit Technologies Co.,Ltd. All rights reserved. 数値で見るデータ解析案件状況 約200 データ解析案件数(年間) ビッグデータ部の案件従事人数 240 リクルートテクノロジーズ内での人数(パートナーも含む) リクルートテクノロジーズ内での案件数 10
  • 12. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentビッグデータ活用における体制 リクルートグループでは、分析業務に対して以下の3つの役割を 定義し案件を推進! (「コンサル型」+「エンジニア型」)×マーケター コンサル型 エンジニア型 事業担当者 ≒マーケターリクルートテクノロジーズ ビッグデータグループ Hadoopエンジニア 分析者 11
  • 13. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department データドリブンの意思決定・施策 【数が多い】 (レコメンド・BI・予測・リアルタイム・非構造) 施策ひとつひとつがより難易度高くかつ長期に【質が高い】 ①シナリオマーケティング、②リアルタイムレコメンド、 ③画像解析 etc 事業担当者 ≒マーケター の知識向上、データドリブン施策の 重要性が認識・拡散。 ここ数年での変化① 12
  • 14. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department一般物体認識:スパースコーディング+SVM 一般物体認識: 画像に映った物を特定する処理 ① 画像をベクトルに変換するencoderの作成 ② encoderで画像をベクトルに変換 ③ 教師データのベクトルを用いて判別モデルを生成 ④ 未知の画像を②でベクトルに変換 ⑤ ③のモデルに④を通し物体を特定 カスタマが興味のある画像に、何が映っているかを特定し、 検索の軸としたり、レコメンド利用の可能性がある 13
  • 15. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department 特定の技術上で施作実行 【種類が少ない】 (MapReduce/Mahout/Hive/HBase) 施策特性に合わせたエコシス/インフラ環境の活用【種類が増加】 ①YARN+Tez、②Spark(Spark Streaming)、 ③Impala、④ AWS/TreasureData etc 事業からの要望の高度化から、施策特性 に合わせた技術の選択。 ここ数年での変化② エンジニア型 分析者 事業担当者 ≒マーケター 14
  • 16. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department取り掛かり中(一部やりたい)のテーマ紹介 Titan グラフ画像解析 テキスト 解析 ストリーム分散SQL 15
  • 17. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department データ活用における課題 16
  • 18. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department データマネジメント データ活用における課題 2 データ連携負荷1 17
  • 19. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department1. データ連携負荷 個別環境が乱立 困ったなぁ~ 18
  • 20. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department1. データ連携負荷 Oracle ユーザ 行動ログ ログ (システム/ アプリ) Adobe ログ検索BI/DWH レコメンド エンジン モニタ リング Hadoop 19
  • 21. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department AWS 1. データ連携負荷 OracleS3/SQS ユーザ 行動ログ ログ (システム/ アプリ) AdobeTreasure Data ログ検索BI/DWH レコメンド エンジン モニタ リング HadoopExaData プッシュ 基盤 20
  • 22. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department2. データマネジメント 個別の データ品質チェックなど 共通化できないかな? 21
  • 23. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department AWS 2. データマネジメント OracleS3/SQS ユーザ 行動ログ ログ (システム/ アプリ) AdobeTreasure Data ログ検索BI/DWH レコメンド エンジン モニタ リング HadoopExaData プッシュ 基盤 品質担保品質担保品質担保品質担保 品質担保品質担保 品質担保 22
  • 24. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department AWS データ連携・マネジメントに対する課題について OracleS3/SQS ユーザ 行動ログ ログ (システム/ アプリ) AdobeTreasure Data ログ検索BI/DWH レコメンド エンジン モニタ リング HadoopExaData プッシュ 基盤 データコネクト 基盤 品質担保 23
  • 25. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department 新たなデータ解析基盤の要件 24
  • 26. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department新たなデータ解析基盤の要件とは 1. データソースの多様性 2. データライフサイクル管理 3. データ品質管理 25
  • 27. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department新たなデータ解析基盤の要件とは 1. データソースの多様性 2. データライフサイクル管理 3. データ品質管理 26
  • 28. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentデータソースの多様性 REST API FTPサーバ データ コレクタ  リアルタイムデータとバッチデータのコレクト・フィード対応 データ フィード 27
  • 29. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department新たなデータ解析基盤の要件とは 1. データソースの多様性 2. データライフサイクル管理 3. データ品質管理 28
  • 30. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentデータライフサイクル管理 データ活用の観点2 システム監査の観点1 29
  • 31. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentデータライフサイクル管理  システム監査の観点 アプリサーバなど データコネクト データ処理 ログ分析基盤  いつ生成されたデータなのか?  どこで生成されたデータなのか? 社内データセンタ 30
  • 32. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentデータライフサイクル管理  システム監査の観点 アプリサーバなど データコネクト データ処理 ログ分析基盤  どの経路から来たデータなのか? 社内データセンタ 31
  • 33. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentデータライフサイクル管理  システム監査の観点 アプリサーバなど 社内データセンタ データコネクト データ処理 ログ分析基盤  どのデータを元に生成されたのか?  データフローの管理者は誰か?  誰がどのようにアクセスするのか? 32
  • 34. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentデータライフサイクル管理  データ活用の観点  特定用途による管理 • BI用の列指向ファイルフォーマットなど 生データ BI用データ レコメンドエンジン用 データ ・・・ 33
  • 35. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentデータライフサイクル管理  データ活用の観点  時系列による管理 • 過去の不必要なデータのクリーニング 直近 1ヶ月後 2ヶ月後 1年後 N年後 ・・・ ・・・ 削除 34
  • 36. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentデータライフサイクル管理  データ活用の観点  利用頻度・SLA・コストによる管理 • 蓄積デバイス、HDFSのレプリケーション数などの最適化 ・・・ ・・・ 利用頻度高 低 35
  • 37. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentデータライフサイクル管理  データ活用の観点  利用者権限による管理 • ロールベースによる権限毎のデータ分離 生データ (マスキングや暗号化 など対策済み) マーケター 用データ 分析者用データ ・・・ 事業担当者 ≒マーケター 分析者 36
  • 38. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department新たなデータ解析基盤の要件とは 1. データソースの多様性 2. データライフサイクル管理 3. データ品質管理 37
  • 39. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentデータ品質管理  機密項目(マスキング/暗号化etc)  スキーマ互換性の担保  メタデータ管理  監査用ユニークID管理 ポリシー定義に基づく品質管理 品質 チェック データ 蓄積 ポリシー チェック 破棄 データ 38
  • 40. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department 現状の取り組み 39
  • 41. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentフィジビリ検証予定の内容について  フィジビリ検証予定のシステム概要について  ユーザの行動をニアリアルタイムに把握し、 サービスレベルを向上したい  ログの活用先の増加が想定されるので、データ 連携先の追加がしやすい仕組みにしておきたい  ログの活用に不要な情報に対して、暗号化・ マスキングなどの対策コストを抑えたい 40
  • 42. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentフィジビリ検証予定の内容について  フィジビリ検証予定のシステム概要について ① 事業サイトのログに対し、暗号化・マスキングなどデータの品質及びセキュリティ担保 ② データ活用側へ必要なデータのみ限定できるよう、データパイプラインを定義 ③ データ活用側が今後増えていくことを見越し、連携方式を統一し連携負荷軽減 アプリサーバ Agent アプリサーバ Agent 事業 サイト マスタ システム 生ログ-アプリ ETL済ログ-アプリ 変換 蓄積品質 モニタリング基盤 ログ解析基盤 生ログ-アプリ ETL済ログ-アプリ 変換 蓄積品質 ①② ③ 41
  • 43. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department検証実施中の内容について  フィジビリ検証予定のシステム概要について ④ ユーザ行動をニアリアルタイムに分析し、予測モデルによる検知からプッシュ基盤などへ のアクション通知へ(のちのちは、オンライン学習などもできたら) アプリサーバ Agent アプリサーバ Agent 事業 サイト マスタ システム 生ログ-アプリ ETL済ログ-アプリ 変換 蓄積品質 プッシュ基盤 生ログ-アプリ ETL済ログ-アプリ 変換 蓄積品質 オン ライン 予測 通知検知 ④ 42
  • 44. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department Hadoop YARN 新たなデータ解析基盤への取り組み  検討中のシステム構成概要案 セキュリティ ポリシー メタデータ リポジトリ データ 変換 データ 品質管理 データ 蓄積 データ フィード モニタリング MRv2 データコネクト/データリポジトリ リアルタイム/バッチ API データ コレクタ データライフ サイクル管理 データ 受信 43
  • 45. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department まとめと今後の展望 44
  • 46. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department 事業担当者の案件施策に対するデータ連携負荷を軽減し、 リクルートグループ内での更なるデータ利活用促進を目指す まとめと今後 2 新技術は積極的に試し、事業サービスでの利用可能性を 常に模索していく3 ストリームデータから導入を始め、既存のバッチへ横展開 そして、共通機能化をしていく 1 45
  • 47. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department一緒に戦ってくれる仲間募集中 本日の「データマネジメント」はデータ解析基盤 の1テーマであり他にも取り組んでいます。 RTCでは、一緒に働く 仲間を求めてます!!  リアルタイムデータ解析処理  リソースマネジメントの効率化  データ分析者向けユーザインタフェース etc… リクルートテクノロジーズ ITソリューション統括部ビッグデータ部 野村 健<nomura_takeshi@r.recruit.co.jp>
  • 48. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department ご清聴ありがとうございました リクルートテクノロジーズ