More Related Content
Similar to CET (Capture EveryThing)プロジェクトにおける機械学習・データマイニング最前線 (20)
More from Recruit Lifestyle Co., Ltd. (20)
CET (Capture EveryThing)プロジェクトにおける機械学習・データマイニング最前線
- 11. CETのログ収集システム構成
11
CET – Capture EveryThingサービス サービス
運用者
機械学習
エンジニア
データ
分析者
が
活用
ELB
Elasticsearch,Kibana
BigQuery
S3
APIELB Cloud Bigtable
*GCP関連製品は技術検証中
Cloud Pub/Sub
Cloud Dataproc,Apache Spark
計算結果を格納
- 14. • Spark Streamingを使用してログを定期的に集計
• 処理時間が特定のしきい値を超えるログの件数を
URLごとに集計し、結果をサービス運用者へ通知
ストリームデータ処理事例2 – サービス共通
CET – Capture EveryThingサービス サービス
運用者
ELB Cloud Pub/Sub
Cloud Dataproc
Apache Spark
14
Amazon SNS
AWS Lambda
メール
Slack
- 19. Rを活用した機械学習/データマイニングの流れ
• データの取得
– COLDデータ: 数億件のレコードをRedShift,
TreasureDataで捌いて特徴量抽出/生成
– HOTデータ: CETのElastic Searchから取得
• 機械学習/データマイニングの実行
– 1,000万件程度のレコードに対して実施
• 分析環境(AWS)
– 基本的にはr3.2xlargeを複数人で使用
– 計算パワーが足りないときは💰で殴る
(インスタンスのグレードを上げる)
• サービスへの展開
– BigTableに格納し、結果をAPI化
19
- 31. • SparkRをEC2上で動かして分散処理して
みる | Tech Blog | リクルートライフスタ
イル RECRUIT
LIFESTYLEhttp://engineer.recruit-
lifestyle.co.jp/techblog/2015-08-19-
sparkr/
• 第4回 [データ分析編]“制約なし”で大
規模データ分析基盤を構築:リクルートラ
イフスタイルの技術力を追え!|gihyo.jp
… 技術評論社
http://gihyo.jp/dev/serial/01/recruit-
lifestyle/0004
(補足)関連資料 1/2
31
- 32. • リクルートライフスタイル全サービス横断
のリアルタイムログ収集・可視化・分析基
盤@JAWS-UG Meguro #2
http://www.slideshare.net/RecruitLifes
tyle/ss-53400381
• 「ビッグデータは“リアルタイム”でこそ価
値がある」CETエンジニア 吉田啓二氏イ
ンタビュー | Tech Blog | リクルートライ
フスタイル RECRUIT LIFESTYLE
http://engineer.recruit-
lifestyle.co.jp/techblog/2015-11-02-
yoshida-interview-1/
(補足)関連資料 2/2
32