More Related Content
Similar to 広告ログの解析システム (20)
More from Katsuhiro Takata (6)
広告ログの解析システム
- 4. 自己紹介
• 高田 勝裕, Ph.D.
• Handle: Karubi Namuru
• Twitter: @karubi
• Facebook: http://www.facebook.com/karubi/
• 職業:Kauli株式会社 代表
• 2009年9月に「Kauli」アドネットワークサービスを開始,現在は広
告枠の収益最大化プラットフォームとして提供
• アルゴリズムの開発,分析システムの構築,そして広告営業
• ここ10年は海外も含めて広告の仕事ばかりです
- 6. なぜお金をかけないのか
• 使えるお金に限界がある
→ まずは営業にお金をかけるべき
• 他社が高級なシステムを導入している
→ 商用DWHとかSPSSとかスタートアップには無理
• 趣味の世界
→ OSSを使い倒したり,300円のサーバで処理させたり
• 思想の世界
→ お金をかけたら負けだと思った
- 9. 各パートの役割概要
• 前処理
• アクセスログをユニークユーザごとにまとめる仕事
• まとめたログを必要な粒度にばらす仕事
• 計算
• まとまったデータを分析する仕事
• 分析結果を評価する仕事
- 10. 前処理の中身
• データを整形する
• Lucene
• クローラが拾ってきたウェブページから得た特徴語等の処理
• その他
• ユニークユーザ別にまとめる
• Hadoop and HBase
• 細かくログを切り刻む処理
• 個別のIDに応じて集合をつくる処理
- 11. 前処理のこだわった点
• 日々のログの量が一定ではない
• 単純な作業だがHadoopにまかせること
• アルゴリズムによってデータ構造を変えなければならない
• Hadoop and Hbase の組み合わせで楽チン
• 言語別の実装をできる限り楽をしたい
• LuceneのAnalyserは多言語対応
- 14. 計算のこだわった点
• アルゴリズムを時々変えること
• Mahoutでサポートされた入力形式を守れば,データ入力の問題
はない
• ローカルサーバがあふれたときに,ネット上のリソースで仕事を
させたい
• EC2にイメージをつくっていつでも起動できる
- 16. 計算の具体的な仕事(2)暗黙的データ
• データマイニング
• 発掘や予測などの計算をおこなう
クリック,ウェブページコンテンツ,訪問頻度,ブラウザ,成果など,複
数の要素の組み合わせを利用して,意味を持つ組み合わせを発掘
する
• 評価
• 正確性の評価
Recall(再現率),Precision(精度)
Coverage(全体カバー)や Diversity(多様性)