SlideShare ist ein Scribd-Unternehmen logo
1 von 25
Downloaden Sie, um offline zu lesen
海外カンファレンス報告
ランキング学習の現状
カムエラ ラウ (Kamuela Lau)
1
自己紹介
• ロンウイットに2017年12月入社
• LTR4L において LTR のアルゴリズムを実装
• ブログ
• https://jp.kamulau.com 

(English: en.kamulau.com)
• ツイッター: @kamu_lau
2
Agenda
• 海外カンファレンス
• Spark AI Summit Europe 2018
• Activate Search & AI
• LTR の現状
• リコメンデーション改善:Elsevier
• オートコンプリート:The Home Depot
• 検索改善:Bloomberg
3
Spark + AI Summit Europe 2018
4
Activate
5
LTR フレームワークのイメージ
学習データ
クエリa
Doc-a1
Doc-a2
Doc-a3
:
ランキング
・・・
クエリb
Doc-b1
Doc-b2
Doc-b3
:
ランキング
クエリN
Doc-N1
Doc-N2
Doc-N3
:
ランキング
モデルの学習
モ デ
ル
ランキング
システム
クエリX
Doc-X1’
Doc-X2’
Doc-X3’
:
ランキング
推定値
クエリX
Doc-X(0)
Doc-X(1)
Doc-X(2)
:
ランキング?
モデル
6
LTR ユースケースその①
7
LTR ユースケースその①
Elsevier
• Elsevier
• 医学・科学技術関係を中心とす
る世界最大規模の出版社
• ScienceDirect
• 1500万論文・記事
• 月数百万のユーザ
• 論文のリコメンデーション
改善にLTR を利用
Learning to Rank with Apache
Spark: A Case Study in Production
Machine Learning
8
LTR ユースケースその①
ScienceDirect のリコメンデーションエンジン
9
LTR ユースケースその①
LTR を利用するシステム
データ
前処理
(ダウンロード・
閲覧回数)
IBCF モデル
LTR
リランク
データ
前処理
(Popularity, Subject,
Text など)
訓練データ
(リコメンドの
クリック数)
LTR モデル
10
LTR ユースケースその①
協調フィルタリング(Collaborative Filtering, CF)
• Memory-based

Similarity (Cosine 距離など) で似たユーザ、またはアイテムを見つける
• User-based (User-item)
• “あなたへのおすすめ商品”
• Item-based (Item-item)
• “この商品を買った人はこんな商品を買っています”
• Model-based

機械学習を用いてCF モデルを構築
11
LTR ユースケースその①
IBCF のメリット、デメリット
メリット
• ダウンロード・閲覧履歴の
み使用
• 論文内容やユーザの個人
情報は不要
デメリット
• スパースデータの場合は
IBCF の精度が落ちる
• 圧倒的に人気のある論文が
勧められてしまうことがあ
る
12
LTR ユースケースその①
LTR を用いてリコメンデーションをリランク
• IBCF スコア
• 人気度
• テキスト
データ
前処理
(リコメンドの

クリック数)
訓練データ LTR モデル
• カテゴリ・サブジェクト
• 時間・日にちなどのデータ
• リコメンデーションによるア
クセス
論文についてのデータが沢山ある
13
LTR ユースケースその①
結果
• Offline (NDCG など) のモデル評価
• Online (A/B testing)による評価
• ユーザアクティビティを様々な手法で測定
• 全手法において 7∼10% 増加
14
LTR ユースケースその②
15
LTR ユースケースその②
The Home Depot
• The Home Depot
• アメリカに本社を置く住宅
リフォーム・建設資材・サー
ビスの小売チェーンである*
• ウェブサイトの検索語のオー
トコンプリート機能 (Type
Ahead Service)の改善に
LTR を利用
Apply Learning to Rank
in The Home Depot
Type Ahead Service
* Wikipedia より抜粋
16
LTR ユースケースその②
The Home Depot の Type Ahead Service
17
LTR ユースケースその②
LTR を利用するシステム
Click
Stream
Data
訓練データ
XGBoost
モデル
Lucene
インデックス
リランクさ
れた結果
データの
前処理
学習 リランク
18
LTR ユースケースその②
訓練データの構造
• 入力された文字、時間な
どの情報をクエリとする
• 検索語候補のリストが文
書リスト
• 正解はクリックデータに
基づく
19
LTR ユースケースその③
20
LTR ユースケースその③
Bloomberg
• Bloomberg
• 経済・金融情報の配信、通信
社・放送事業を手がけるアメ
リカ合衆国の大手総合情報サー
ビス会社。*
• 情報端末、Bloomberg ニュース
• 検索改善に LTR を利用
(News)
* Wikipedia より抜粋
21
LTR ユースケースその③
LTR を利用したシステム
クエリ インデックス 上位 k件
Commodities
News
People
など
訓練データ モデル
リランクされた
上位 k件
人手でラベル付与 学習
22
LTR ユースケースその③
LTR のデプロイまでの過程と結果
• 期待の結果を確認後、パフォーマンス向上
• ユーザの1割にたいして LTR モデルをデプロイ(試用)
• 異常がないことを確認後、全てのユーザに LTR モデルを
デプロイ
• 同時にウェブサイトの変更があったため、変化の測定が
難しかった
23
まとめ
• LTR は様々なユースケースがある
• リコメンデーションエンジンの改善
• オートコンプリートの改善
• 検索の改善
• など
24
ご静聴ありがとうございました
参考資料
• Spark + AI Summit Europe: https://databricks.com/sparkaisummit/europe/schedule
• Activate 2018: https://activate-conf.com/agenda/
• Learning to Rank with Apache Spark: A Case Study in Production Machine Learning with Adam Davidson and Anna Bladzich
• 資料と動画: https://databricks.com/session/learning-to-rank-with-apache-spark-a-case-study-in-production-machine-
learning
• Learning to Rank: From Theory to Production
• 資料: https://www.slideshare.net/lucidworks/learning-to-rank-from-theory-to-production-malvina-josephidou-diego-
ceccarelli-bloomberg
• 概要: https://sched.co/FkM6
• Apply Learning to Rank in The Home Depot Type Ahead Service
• 概要: https://sched.co/FkMQ
その他
• エンジニア・コンサルタント募集中
25

Weitere ähnliche Inhalte

Ähnlich wie Learningtorank meetup-vol3-pt2

Ähnlich wie Learningtorank meetup-vol3-pt2 (12)

IMS/GLC 2015 東京セミナー報告とCaliper 1.0
IMS/GLC 2015 東京セミナー報告とCaliper 1.0IMS/GLC 2015 東京セミナー報告とCaliper 1.0
IMS/GLC 2015 東京セミナー報告とCaliper 1.0
 
JSAI's AI Tool Introduction - Deep Learning, Pylearn2 and Torch7
JSAI's AI Tool Introduction - Deep Learning, Pylearn2 and Torch7JSAI's AI Tool Introduction - Deep Learning, Pylearn2 and Torch7
JSAI's AI Tool Introduction - Deep Learning, Pylearn2 and Torch7
 
データ分析基盤におけるOpsのためのDev with event driven + serverless
データ分析基盤におけるOpsのためのDev with event driven + serverlessデータ分析基盤におけるOpsのためのDev with event driven + serverless
データ分析基盤におけるOpsのためのDev with event driven + serverless
 
S06 t1 python学習奮闘記#4
S06 t1 python学習奮闘記#4S06 t1 python学習奮闘記#4
S06 t1 python学習奮闘記#4
 
【JaSST'18 Tokai】アジャイルとテスト自動化導入の勘所
【JaSST'18 Tokai】アジャイルとテスト自動化導入の勘所【JaSST'18 Tokai】アジャイルとテスト自動化導入の勘所
【JaSST'18 Tokai】アジャイルとテスト自動化導入の勘所
 
既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!
既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!
既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!
 
Drupalを活用した Linked Open Dataの 実践的試行環境の構築
Drupalを活用した Linked Open Dataの実践的試行環境の構築Drupalを活用した Linked Open Dataの実践的試行環境の構築
Drupalを活用した Linked Open Dataの 実践的試行環境の構築
 
「速」を落とさないコードレビュー
「速」を落とさないコードレビュー「速」を落とさないコードレビュー
「速」を落とさないコードレビュー
 
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門
 
20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート
 
データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤
 
How to generate PowerPoint slides Non-manually using R
How to generate PowerPoint slides Non-manually using RHow to generate PowerPoint slides Non-manually using R
How to generate PowerPoint slides Non-manually using R
 

Kürzlich hochgeladen

Kürzlich hochgeladen (10)

論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 

Learningtorank meetup-vol3-pt2