SlideShare ist ein Scribd-Unternehmen logo
1 von 69
Downloaden Sie, um offline zu lesen
リクルート式
自然言語処理技術の適応事例紹介
株式会社リクルートテクノロジーズ
ITソリューション統括部 ビッグデータ2グループ
池田 裕一
2Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
趣味etc
学歴
略歴
所属
氏名
自己紹介
RTC ITソリューション統括部
ビッグデータ2G
池田 裕一
東京大学大学院工学系研究科
精密機械工学専攻
社会人5年目。
某大手メーカー系SIerで3年間、Java・C++を使った位
置情報サービスの開発やAndroidアプリの開発に従事。
2014年4月からリクルートテクノロジーズ入社。
レコメンド施策開発のディレクション、自然言語処理やグラ
フ解析の技術開発に従事。
テニス
ゴルフ
旅行
カメラ
3Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
本日覚えて帰って頂きたい事
 word2vecのレコメンドへの活用
 doc2vecの文書要約への活用
4Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
1
2
3
4
word2vecを使ったレコメンドシステム
doc2vecを使った文書要約
リクルートについて
最近のデータ活用状況紹介
アジェンダ
5 まとめ
5Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
リクルートについて
6Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
リクルートのビジネスモデル
Matching
Business
HR
Bridal
Group
Buying
Used
Cars
Travel
Real
Estate
Beauty Gourmet
Social Games
E-Commerce
Ad Network
New Business
Consumers Enterprise
7Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
リクルートの事業領域
「選択」 をサポートするような情報サービスを展開
Life event area Lifestyle Area
Travel
IT/ TrendLifestyle
Health & Beauty
Job Hunt
Marriage
Job Change
Home Purchase
Car Purchase
Child Birth
Education
8Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
リクルートテクノロジーズの立ち位置
Infrastructure
Large project
promotions
UI design/SEO
Big Data
Department
Technology R&D
IT Promotion
Recruit
Holdings
Recruit Career
Recruit Sumai Company
Recruit Lifestyle
Recruit Jobs
Recruit Staffing
Recruit Marketing Partners
Staff service Holdings
Recruit Technologies
Recruit Administration
Recruit Communications
Operation
Service
9Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
最近のデータ活用状況紹介
10Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Server Database
数値で見るデータ解析環境
エコシステム
本番165台/開発24台 1342.2TB
11Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
数値で見るHadoopの使われ方
28,344
1038万
1日あたりの全JOBの数
1日あたりの全Hbaseクエリの数
12Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
数値で見るデータ解析案件状況
約200 データ解析案件数(年間)
ビッグデータ部の案件従事人数 240
13Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
word2vecを使ったレコメンドシステム
14Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
word2vecとは
 各単語を表現するベクトルを学習
 単語から文書中でその単語の前後に現れる単語を予測できるような表現を学習
 単語を表す1-of-k表現のベクトルを入力とし、その単語の前後にある単語の出現確率
を出力とするニューラルネットを学習させ、その中間層の値を単語を表現するベクトルとし
て用いる
w(t)
w(t-1)
w(t+1)
w(t+2)
w(t-2)
INPUT PROJECTION OUTPUT
INPUT:
単語の1-of-k表現
PROJECTION:
単語
線形変換
階層的
soft-max
OUTPUT:
前後の単語の出現確率
𝑝(𝑤(𝑡+𝑖)|𝑤(𝑡))
目的関数
15Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
word2vecとは
While expanding its
channel for
distribution
information from
paper publication to
the net and mobile,
the company has been
pushing for a shift of
their revenue from
… … …
while(0.1, 0.4, 0.3, 0.7, …)
expanding(0.2, 0.5, 0.7, 0.7,
…)
its(0.1, 0.1, 0.9, 0.6, …)
channel(0.6, 0.4, 0.9, 0.5,
…)
for(0.5, 0.8, 0.2, 0.1, …)
distribution(0.8, 0.4, 0.1,
0.2, …)
information(0.3, 0.7, 0.3,
0.6, …)
…
…
…
…
文書データ ベクトルデータ
word2vec
文書データを元に単語毎のベクトルデータを生成する
16Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
仮説 〜 word2vecをレコメンドに使う着眼点
アイテムベクトルの近さがアイテムの類似度として見なせるのではないか?
精度
単語間の文脈の純度を高めれば、類似度の
精度が高まるのでは?
ベクトル
レコメンドしたいアイテムをベクトル化して、類
似度を求められるのでは?
17Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドに適したword2vecのインプットデータとは
インプットデータとしてユーザーアクションログを使用する
wikipediaなどの
テキストデータ
サービスユーザーの
アクションログデータ
 ノイズが混じる
 必要なアイテム全てを網羅できない
user1 time1 ~~~~~~
user2 time2 ~~~~~~
user3 time3 ~~~~~~
… … …
 アイテムの関係性を内包する
 必要なアイテム全てを網羅できる
18Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
文章と単語の作り方
I am a cat. As yet I have no name.
19Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
文章と単語の作り方
I am a cat. As yet I have no name.
文章 文章
20Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
文章と単語の作り方
I am a cat. As yet I have no name.
文章 文章
単語
21Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
アクションログを使った時の文章と単語の作り方
User-1 :
User-2 :
User-3 :
時系列
item-A item-B item-C item-D item-E …
item-V item-W item-X item-Y item-Z …
item-O item-P item-Q item-R item-S …
ユーザー毎のアイテムに対するアクションログ
…
文章 単語
22Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
アクションログを使った時の文章と単語の作り方
1ユーザーのアクション履歴を1文章、アイテムを単語、と置き換える
User-1 :
User-2 :
User-3 :
時系列
item-A item-B item-C item-D item-E …
item-V item-W item-X item-Y item-Z …
item-O item-P item-Q item-R item-S …
ユーザー毎のアイテムに対するアクションログ
…
23Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
word2vecのアウトプットデータ
アクション
ログデータ
word2vec
user1 item-A item-B item-C…
user2 item-D item-E item-F…
user3 item-G item-Q item-X…
user4 item-L item-K item-V…
… … …
24Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
word2vecのアウトプットデータ
アクション
ログデータ
word2vec
itemベクトル
データ
user1 item-A item-B item-C…
user2 item-D item-E item-F…
user3 item-G item-Q item-X…
user4 item-L item-K item-V…
… … …
item-A (0.1, 0.9, 0.6, 0.4,
……)
item-B (0.2, 0.5, 0.1, 0.8,
……)
item-C (0.7, 0.3, 0.3, 0.4,
……)
item-D (0.5, 0.9, 0.8, 0.2,
……)
… … …
25Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
word2vecのアウトプットデータ
アクション
ログデータ
word2vec
itemベクトル
データ
cos類似度
user1 item-A item-B item-C…
user2 item-D item-E item-F…
user3 item-G item-Q item-X…
user4 item-L item-K item-V…
… … …
item-A (0.1, 0.9, 0.6, 0.4,
……)
item-B (0.2, 0.5, 0.1, 0.8,
……)
item-C (0.7, 0.3, 0.3, 0.4,
……)
item-D (0.5, 0.9, 0.8, 0.2,
……)
… … …
26Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
word2vecのアウトプットデータ
アクション
ログデータ
word2vec
itemベクトル
データ
item類似度
データ
cos類似度
user1 item-A item-B item-C…
user2 item-D item-E item-F…
user3 item-G item-Q item-X…
user4 item-L item-K item-V…
… … …
item-A (0.1, 0.9, 0.6, 0.4,
……)
item-B (0.2, 0.5, 0.1, 0.8,
……)
item-C (0.7, 0.3, 0.3, 0.4,
……)
item-D (0.5, 0.9, 0.8, 0.2,
……)
… … …
item-A, item-B, 0.976
item-A, item-C, 0.329
item-A, item-D, 0.743
item-A, item-E, 0.552
… … …
27Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
word2vecのアウトプットデータ
word2vecで出来上がったベクトルデータでアイテム間のcos類似度を算出
アクション
ログデータ
word2vec
itemベクトル
データ
item類似度
データ
cos類似度
user1 item-A item-B item-C…
user2 item-D item-E item-F…
user3 item-G item-Q item-X…
user4 item-L item-K item-V…
… … …
item-A (0.1, 0.9, 0.6, 0.4,
……)
item-B (0.2, 0.5, 0.1, 0.8,
……)
item-C (0.7, 0.3, 0.3, 0.4,
……)
item-D (0.5, 0.9, 0.8, 0.2,
……)
… … …
item-A, item-B, 0.976
item-A, item-C, 0.329
item-A, item-D, 0.743
item-A, item-E, 0.552
… … …
28Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
word2vecのアウトプットデータ
アクション
ログデータ
word2vec
itemベクトル
データ
item類似度
データ
cos類似度
user1 item-A item-B item-C…
user2 item-D item-E item-F…
user3 item-G item-Q item-X…
user4 item-L item-K item-V…
… … …
item-A (0.1, 0.9, 0.6, 0.4,
……)
item-B (0.2, 0.5, 0.1, 0.8,
……)
item-C (0.7, 0.3, 0.3, 0.4,
……)
item-D (0.5, 0.9, 0.8, 0.2,
……)
… … …
item-A, item-B, 0.976
item-A, item-C, 0.329
item-A, item-D, 0.743
item-A, item-E, 0.552
… … …
アイテム間の類似度の計算は億オーダの回
数必要になるため、分散処理している
word2vecで出来上がったベクトルデータでアイテム間のcos類似度を算出
29Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドリストの作成 〜 実サービスへの適用
ユーザー
30Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドリストの作成 〜 実サービスへの適用
ユーザー
item-A item-B item-C item-D item-E
時系列
①
ユーザーが最直近でア
クションしたアイテムを
10件抽出
31Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドリストの作成 〜 実サービスへの適用
ユーザー
item-A item-B item-C item-D item-E
時系列
① ②
ユーザーが最直近でア
クションしたアイテムを
10件抽出
それぞれのアイテムに対
して、cos類似度の高
いアイテムを抽出
item-Q item-I item-O item-P item-L
item-X item-T item-U item-S item-M
item-R item-G item-F item-W item-Z
32Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドリストの作成 〜 実サービスへの適用
ユーザー
item-A item-B item-C item-D item-E
時系列
① ② ③
ユーザーが最直近でア
クションしたアイテムを
10件抽出
それぞれのアイテムに対
して、cos類似度の高
いアイテムを抽出
リストを作成
(重複したアイテムを
除く)
item-Q item-I item-O item-P item-L
item-X item-T item-U item-S item-M
レコメンド
item-R item-G item-F item-W item-Z
33Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドリストの作成 〜 実サービスへの適用
word2vecを元に作られたベクトルデータを使ってレコメンドリストを作成
ユーザー
item-A item-B item-C item-D item-E
時系列
① ② ③
ユーザーが最直近でア
クションしたアイテムを
10件抽出
それぞれのアイテムに対
して、cos類似度の高
いアイテムを抽出
リストを作成
(重複したアイテムを
除く)
item-Q item-I item-O item-P item-L
item-X item-T item-U item-S item-M
レコメンド
item-R item-G item-F item-W item-Z
34Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実証実験① 〜 オフラインテスト
従来のレコメンドエンジンと比較して、効果が約1.6倍高い事が分かった
0
0.5
1
1.5
2
2.5
1 2 3 4 5 6 7 8 9 10 11 12
従来ロジックとword2vecによるKPIの比較
(従来ロジックを1とした時の比較)
系列1 系列2
概要
過去のユーザログデータを用いてバックミラー分析を行い、従来ロジックとword2vec
ロジックのレコメンド精度の比較を行う
35Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実証実験② 〜 ABテスト
サービスY
CVRが 156% 改善
3.57% ⇒ 9.15%
サービスX
CVRが 31% 改善
46.59%⇒ 61.13%
概要
オンラインで、ユーザーを2つのグループに分け、従来ロジックとword2vecロジックの
レコメンドリストを提示し、CVRの違いを調査する
オンラインでもword2vecロジックによるレコメンドの方が効果が高い
36Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドエンジンの更なる進化 〜 仮説
ベクトルを足し合わせれば、志向ベクトルを作れる!?
ベクトル
ベクトルを足し合わせると、ユーザーの志向を
捉える事が出来るのではないか?
item-A
item-B
User-Vec
item-D
item-C
37Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドエンジンの更なる進化 〜 ベクトル足し算
ユーザー
38Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドエンジンの更なる進化 〜 ベクトル足し算
ユーザー
item-A item-B item-C item-D item-E
時系列
①
ユーザーが
最直近でア
クションした
アイテムを
10件抽出
39Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドエンジンの更なる進化 〜 ベクトル足し算
ユーザー
item-A item-B item-C item-D item-E
時系列
① ②
ユーザーが
最直近でア
クションした
アイテムを
10件抽出
それぞれのアイテ
ムのベクトルを足
し、合成ベクトル
を作成
Int-Vec
40Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドエンジンの更なる進化 〜 ベクトル足し算
ユーザー
item-A item-B item-C item-D item-E
時系列
① ②
ユーザーが
最直近でア
クションした
アイテムを
10件抽出
それぞれのアイテ
ムのベクトルを足
し、合成ベクトル
を作成
item-Q
item-I
item-O
Int-Vec
③
合成ベクトルと
類似度の高いア
イテムを抽出
41Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドエンジンの更なる進化 〜 ベクトル足し算
ユーザー
item-A item-B item-C item-D item-E
時系列
① ② ④
ユーザーが
最直近でア
クションした
アイテムを
10件抽出
それぞれのアイテ
ムのベクトルを足
し、合成ベクトル
を作成
リストを作成
item-Q
item-I
item-O
レコメンド
Int-Vec
③
合成ベクトルと
類似度の高いア
イテムを抽出
42Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドエンジンの更なる進化 〜 ベクトル足し算
ユーザーがアクションしたアイテムの合成ベクトルを志向ベクトルと見なす
ユーザー
item-A item-B item-C item-D item-E
時系列
① ② ④
ユーザーが
最直近でア
クションした
アイテムを
10件抽出
それぞれのアイテ
ムのベクトルを足
し、合成ベクトル
を作成
リストを作成
item-Q
item-I
item-O
レコメンド
Int-Vec
③
合成ベクトルと
類似度の高いア
イテムを抽出
43Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドエンジンの更なる進化 〜 効果検証
ベクトルを足し合わせる事によってユーザーの志向を捉える事が出来た
サービスZ
CVRが 27% 改善
21.56% ⇒ 27.29%
概要
オンラインで、ユーザーを2つのグループに分け、word2vecロジックとword2vec足
し合わせロジックでのレコメンドリストを提示し、CVRの違いを調査する
44Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドエンジンへの実装 〜 Hadoop活用
Hadoop
レコメンド生成
バッチ
ユーザー
行動ログ
集計バッチユーザー情報
行動ログ
ユーザー毎の
レコメンド
ユーザー毎のパーソナライズレコメンドを日次で実施(主にHive)
45Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ユーザー
Web
HBase
レコメンドテーブルの
参照API
Hadoop
行動ログ
集計バッチ
検索API
APIリクエスト
検索行動
レコメンド取得
レコメンド
バルクロード
テーブル参照
リアルタイムレコメンドへの実装 〜 HBase活用
ユーザーの志向をリアルタイムで捉え、リアルタイムにレコメンドを実施
46Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ここまでのまとめ
• ユーザーのアクションログをword2vecのインプットに使用し、ア
イテムをベクトル化している
→文章を1ユーザーのログ、単語をアイテムと見なす
• ベクトル同士のcos類似度を計算することで、レコメンドエンジン
に活用している
• 類似度計算ではHadoopを使って分散処理を行い高速化して
いる
• ベクトルを足し合わせることでユーザーの志向を捉える事ができ
る
47Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
doc2vecを使った文書要約
48Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
doc2vecとは
文章をベクトル化する
1. I am a cat.
2. As yet I have no name.
3. …
…
1. I am a cat. (0.2, 0.4, 0.9, …)
2. As yet I have no name. (0.5, 0.7, 0.8, …)
3. …
…
doc2vec
49Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
仮説 〜 doc2vecを文書要約に使う着眼点
一番大きな領域を作る文章ベクトルを取れば、文書のまとめが作れる!?
ベクトル
領域
複数の文章ベクトルによって作られた領域は、
その中に入るベクトルを意味的に内包するの
ではないか?
50Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
文書要約のイメージ
文章1
文章2
文章10
文書…
文章3
51Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
文書要約のイメージ
文章1
文章2
文章10
文書…
文章3
文章をベクトル化して
プロットする
52Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
文書要約のイメージ
文章1
文章2
文章10
文書…
文章3
文章をベクトル化して
プロットする
文章1
文章10
文章7
文章6
文章3
文章2
文章9 文章5
文章4
文章8
53Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
文書要約のイメージ
文章1
文章2
文章10
文書…
文章3
文章をベクトル化して
プロットする
文章1
文章10
文章7
文章6
文章3
文章2
文章9 文章5
文章4
文章8
【参考論文】
http://www.cs.cmu.edu/~dyogatam/papers/yogatama+liu+smith.em
nlp2015.pdf
54Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
文書要約のイメージ
文章1
文章2
文章10
文書…
文章3
文章をベクトル化して
プロットする
文章1
文章10
文章7
文章6
文章3
文章2
文章9 文章5
文章4
文章8
【参考論文】
http://www.cs.cmu.edu/~dyogatam/papers/yogatama+liu+smith.em
nlp2015.pdf
文書1,3,6,7,10は
文書2,4,5,8,9を意
味的に内包するので
はないか?
55Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実証実験 〜 プレミア12に関する投稿をまとめてみる
ちなみに試合の内容は…
・4番の中村選手が欠場
・先発の前田投手が好投(7回無失点)
・打線は13安打9得点
・坂本選手が16打席ぶりのヒットを含む2安打3打点
・9回にプエルトリコが3ランホームラン
etc…
実験手順
 記事の内容の把握、及びクレンジング
プレミア12準々決勝 日本vsプエルトリコの試合のニュース記事に関するコメン
ト(計161件)
 投稿のベクトル化、及びまとめに使用する投稿の抽出
今回は5つのコメントを抽出して要約を試みる
56Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実証実験 〜 プレミア12に関する投稿をまとめてみる
結果
前田健太はもう決勝投げないだろうな
今日7回まで行かしたってことはそういうこ
とだな。
来季メジャーもあるし無理はさせな
い。
先発は 大谷と菅野か武田
中継ぎは山崎・則本・牧田
炎上組 松井・増井・西・小川
微妙組 大野・澤村
なんか炎上組は使いたくないし大野
と澤村も内容悪いし
やっぱ中継ぎ全然足りてないわ
CS見てない人にはわからないかもしれん
が、大谷は間隔が空きすぎるとダメになる。
ましてや東京ドームが苦手。
初戦でボコられた韓国サイドは研究に
研究を重ねてリベンジして来ると考えると炎
上して大敗するのが妥当。
よって戦犯大谷ということになる。
まあ、野手が頑張って打撃戦に持ち込
めば話は別だが、相手の先発は何があって
も負けないイデウンだから無理でしょう。
仮に大谷が炎上して負けても大谷一
人のせいにしないで欲しいです(涙)。
調整登板させなかった首脳陣にも問題
があるんだから(震え声)
ツイッター上のハムファン全員が増井燃え
ると予言してて草生えたわw
やはり増井はセーブかホールド機会で
投げさせないとアカンな
平田三塁打→松田犠牲フライで実質
試合終了なものだろ
ここで一番温い試合してしまったのは
問題あるわ
増井に不安がある以上マッスルミュー
ジカルは覚悟しとかないとな
マエケンは7回90球、中4日で決勝先
発は十分ありうる
中村外して中村入れる打線は悪くは
ないんだが中田が案の定6番外れたら内
容が悪くなった
どうすりゃいいんかね?
今まできつい試合ばかりだったからね、こんな試合もたまにはいいでしょ。でも、気は弛めな
いで!
57Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実証実験 〜 プレミア12に関する投稿をまとめてみる
特定の偏ったコメントではなく、満遍なくコメントが拾う事が可能
結果
前田健太はもう決勝投げないだろうな
今日7回まで行かしたってことはそういうこ
とだな。
来季メジャーもあるし無理はさせな
い。
先発は 大谷と菅野か武田
中継ぎは山崎・則本・牧田
炎上組 松井・増井・西・小川
微妙組 大野・澤村
なんか炎上組は使いたくないし大野
と澤村も内容悪いし
やっぱ中継ぎ全然足りてないわ
CS見てない人にはわからないかもしれん
が、大谷は間隔が空きすぎるとダメになる。
ましてや東京ドームが苦手。
初戦でボコられた韓国サイドは研究に
研究を重ねてリベンジして来ると考えると炎
上して大敗するのが妥当。
よって戦犯大谷ということになる。
まあ、野手が頑張って打撃戦に持ち込
めば話は別だが、相手の先発は何があって
も負けないイデウンだから無理でしょう。
仮に大谷が炎上して負けても大谷一
人のせいにしないで欲しいです(涙)。
調整登板させなかった首脳陣にも問題
があるんだから(震え声)
ツイッター上のハムファン全員が増井燃え
ると予言してて草生えたわw
やはり増井はセーブかホールド機会で
投げさせないとアカンな
平田三塁打→松田犠牲フライで実質
試合終了なものだろ
ここで一番温い試合してしまったのは
問題あるわ
増井に不安がある以上マッスルミュー
ジカルは覚悟しとかないとな
マエケンは7回90球、中4日で決勝先
発は十分ありうる
中村外して中村入れる打線は悪くは
ないんだが中田が案の定6番外れたら内
容が悪くなった
どうすりゃいいんかね?
今まできつい試合ばかりだったからね、こんな試合もたまにはいいでしょ。でも、気は弛めな
いで!
58Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実サービスへの展望 〜 口コミのまとめ
MROC(Marketing Research Online Community)
ある特定の商品やテーマなど共通の興味を持った人々をメンバー限定のコミュニ
ティに招待し、自由にディスカッションしてもらいながら、消費者のニーズを探る調
査手法
どのような事が話されているかを整
理する事が非常に大変
一つのテーマにつき、数百のコメント
が付く
59Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実サービスへの展望 〜 口コミのまとめ
アットホームな
式にしたい
リゾート挙式が
したい
極力シンプルに
したい
沢山のゲストに
来て欲しい
テーマに対してどのようなコメントが来ているのかをまとめる
60Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実サービスへの展望 〜 新規コメントの抽出
61Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実サービスへの展望 〜 新規コメントの抽出
①
既存の口コミで領域を
作成
62Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実サービスへの展望 〜 新規コメントの抽出
①
既存の口コミで領域を
作成
63Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実サービスへの展望 〜 新規コメントの抽出
① ②
既存の口コミで領域を
作成
新規の口コミをプロット
64Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実サービスへの展望 〜 新規コメントの抽出
新規の口コミが「新しい内容を含むかどうか」の判別を行う
① ② ③
既存の口コミで領域を
作成
新規の口コミをプロット 領域に含まれるか否か
を判定
65Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
まとめ
66Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
本日のまとめ
• ユーザーのアクションログをword2vecのインプットに使用し、ア
イテムをベクトル化している
• ベクトル同士のcos類似度を計算することで、レコメンドエンジン
に活用している
• ベクトルを足し合わせることでユーザーの志向を捉える事ができ
る
• 文書要約にdoc2vecを活用している
• 定性的に見て、doc2vecを使った文書要約が有用であること
が分かった
• doc2vecを口コミの整理や、新たなコメントの内容が新規であ
るかどうかの判断ロジックとして活用を検討
67Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
今後の展望
リアルタイムでのユー
ザー志向分析
グラフ分析及び
グラフDBの導入
A
B
C
D
E
w(t)
w(t+1)
w(t+5)
・
・
・
w(t-1)
w(t-5)
・
・
・
68Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ビジネスを踏まえて
泥臭くかつアグレッシブに
分析・エンジニアリングが
できる方。
ご連絡ください。
戦友をさがしています。
Yes, We Are Hiring! 池田 裕一
ご清聴ありがとうございました

Weitere ähnliche Inhalte

Was ist angesagt?

Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
Shuyo Nakatani
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
 

Was ist angesagt? (20)

深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
 
Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化
 
最適化超入門
最適化超入門最適化超入門
最適化超入門
 
ナレッジグラフ入門
ナレッジグラフ入門ナレッジグラフ入門
ナレッジグラフ入門
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
ChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AIChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AI
 
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
 
実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだこと実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだこと
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
 
推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 

Andere mochten auch

Andere mochten auch (15)

Word2vecの理論背景
Word2vecの理論背景Word2vecの理論背景
Word2vecの理論背景
 
AINOW活用事例(という名のゴマすり)
AINOW活用事例(という名のゴマすり)AINOW活用事例(という名のゴマすり)
AINOW活用事例(という名のゴマすり)
 
【論文紹介】Distributed Representations of Sentences and Documents
【論文紹介】Distributed Representations of Sentences and Documents【論文紹介】Distributed Representations of Sentences and Documents
【論文紹介】Distributed Representations of Sentences and Documents
 
DeepLearningとWord2Vecを用いた画像レコメンドの考察
DeepLearningとWord2Vecを用いた画像レコメンドの考察DeepLearningとWord2Vecを用いた画像レコメンドの考察
DeepLearningとWord2Vecを用いた画像レコメンドの考察
 
自然言語処理 Word2vec
自然言語処理 Word2vec自然言語処理 Word2vec
自然言語処理 Word2vec
 
fastTextの実装を見てみた
fastTextの実装を見てみたfastTextの実装を見てみた
fastTextの実装を見てみた
 
t-SNE
t-SNEt-SNE
t-SNE
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
 
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
 
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
 
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
 
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
 
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルリクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
 
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
 
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
 

Ähnlich wie リクルート式 自然言語処理技術の適応事例紹介

Ähnlich wie リクルート式 自然言語処理技術の適応事例紹介 (20)

リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介
 
20150625 cloudera
20150625 cloudera20150625 cloudera
20150625 cloudera
 
JAZUG_TOHOKU_modeki_20230324_共有版.pdf
JAZUG_TOHOKU_modeki_20230324_共有版.pdfJAZUG_TOHOKU_modeki_20230324_共有版.pdf
JAZUG_TOHOKU_modeki_20230324_共有版.pdf
 
Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)
 
Klocworkのご紹介
Klocworkのご紹介Klocworkのご紹介
Klocworkのご紹介
 
Redmineの情報を自分好みに見える化した話
Redmineの情報を自分好みに見える化した話Redmineの情報を自分好みに見える化した話
Redmineの情報を自分好みに見える化した話
 
LEGO MINDSTORMS EV3 API
LEGO MINDSTORMS EV3 APILEGO MINDSTORMS EV3 API
LEGO MINDSTORMS EV3 API
 
Visual Studio による開発環境・プログラミングの進化
Visual Studio による開発環境・プログラミングの進化Visual Studio による開発環境・プログラミングの進化
Visual Studio による開発環境・プログラミングの進化
 
Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現
Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現
Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現
 
6万行の TypeScript 移行とその後
6万行の TypeScript 移行とその後6万行の TypeScript 移行とその後
6万行の TypeScript 移行とその後
 
Einsteinvision - object detection を試してみよう
Einsteinvision - object detection を試してみようEinsteinvision - object detection を試してみよう
Einsteinvision - object detection を試してみよう
 
ビッグデータ処理データベースの全体像と使い分け
2018年version
ビッグデータ処理データベースの全体像と使い分け
2018年versionビッグデータ処理データベースの全体像と使い分け
2018年version
ビッグデータ処理データベースの全体像と使い分け
2018年version
 
3Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.13Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.1
 
IBM Blluemix を Pepper とつないでみよう
IBM Blluemix を Pepper とつないでみようIBM Blluemix を Pepper とつないでみよう
IBM Blluemix を Pepper とつないでみよう
 
React vtecx20170822
React vtecx20170822React vtecx20170822
React vtecx20170822
 
Zyyx inc. data for interop
Zyyx inc. data for interopZyyx inc. data for interop
Zyyx inc. data for interop
 
Qiita x Microsoft - 機械学習セミナー Microsoft AI Platform
Qiita x Microsoft - 機械学習セミナー Microsoft AI PlatformQiita x Microsoft - 機械学習セミナー Microsoft AI Platform
Qiita x Microsoft - 機械学習セミナー Microsoft AI Platform
 
明治大学理工学部 特別講義 AI on Azure
明治大学理工学部 特別講義 AI on Azure明治大学理工学部 特別講義 AI on Azure
明治大学理工学部 特別講義 AI on Azure
 
houjin.pdf
houjin.pdfhoujin.pdf
houjin.pdf
 
楽天におけるビッグデータとその活用について
楽天におけるビッグデータとその活用について楽天におけるビッグデータとその活用について
楽天におけるビッグデータとその活用について
 

Mehr von Recruit Technologies

Mehr von Recruit Technologies (20)

新卒2年目が鍛えられたコードレビュー道場
新卒2年目が鍛えられたコードレビュー道場新卒2年目が鍛えられたコードレビュー道場
新卒2年目が鍛えられたコードレビュー道場
 
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学びカーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
 
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
 
Tableau活用4年の軌跡
Tableau活用4年の軌跡Tableau活用4年の軌跡
Tableau活用4年の軌跡
 
HadoopをBQにマイグレしようとしてる話
HadoopをBQにマイグレしようとしてる話HadoopをBQにマイグレしようとしてる話
HadoopをBQにマイグレしようとしてる話
 
LT(自由)
LT(自由)LT(自由)
LT(自由)
 
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
 
リクルート式AIの活用法
リクルート式AIの活用法リクルート式AIの活用法
リクルート式AIの活用法
 
銀行ロビーアシスタント
銀行ロビーアシスタント銀行ロビーアシスタント
銀行ロビーアシスタント
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイント
 
ユーザーからみたre:Inventのこれまでと今後
ユーザーからみたre:Inventのこれまでと今後ユーザーからみたre:Inventのこれまでと今後
ユーザーからみたre:Inventのこれまでと今後
 
EMRでスポットインスタンスの自動入札ツールを作成する
EMRでスポットインスタンスの自動入札ツールを作成するEMRでスポットインスタンスの自動入札ツールを作成する
EMRでスポットインスタンスの自動入札ツールを作成する
 
RANCHERを使ったDev(Ops)
RANCHERを使ったDev(Ops)RANCHERを使ったDev(Ops)
RANCHERを使ったDev(Ops)
 
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイントリクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイント
 
「リクルートデータセット」 ~公開までの道のりとこれから~
「リクルートデータセット」 ~公開までの道のりとこれから~「リクルートデータセット」 ~公開までの道のりとこれから~
「リクルートデータセット」 ~公開までの道のりとこれから~
 
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
 
リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介
 
Spring “BigData”
Spring “BigData”Spring “BigData”
Spring “BigData”
 
Struggle against cross-domain data complexity in Recruit group
Struggle against cross-domain data complexity in Recruit groupStruggle against cross-domain data complexity in Recruit group
Struggle against cross-domain data complexity in Recruit group
 

Kürzlich hochgeladen

Kürzlich hochgeladen (7)

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 

リクルート式 自然言語処理技術の適応事例紹介

  • 2. 2Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 趣味etc 学歴 略歴 所属 氏名 自己紹介 RTC ITソリューション統括部 ビッグデータ2G 池田 裕一 東京大学大学院工学系研究科 精密機械工学専攻 社会人5年目。 某大手メーカー系SIerで3年間、Java・C++を使った位 置情報サービスの開発やAndroidアプリの開発に従事。 2014年4月からリクルートテクノロジーズ入社。 レコメンド施策開発のディレクション、自然言語処理やグラ フ解析の技術開発に従事。 テニス ゴルフ 旅行 カメラ
  • 3. 3Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 本日覚えて帰って頂きたい事  word2vecのレコメンドへの活用  doc2vecの文書要約への活用
  • 4. 4Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 1 2 3 4 word2vecを使ったレコメンドシステム doc2vecを使った文書要約 リクルートについて 最近のデータ活用状況紹介 アジェンダ 5 まとめ
  • 5. 5Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. リクルートについて
  • 6. 6Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. リクルートのビジネスモデル Matching Business HR Bridal Group Buying Used Cars Travel Real Estate Beauty Gourmet Social Games E-Commerce Ad Network New Business Consumers Enterprise
  • 7. 7Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. リクルートの事業領域 「選択」 をサポートするような情報サービスを展開 Life event area Lifestyle Area Travel IT/ TrendLifestyle Health & Beauty Job Hunt Marriage Job Change Home Purchase Car Purchase Child Birth Education
  • 8. 8Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. リクルートテクノロジーズの立ち位置 Infrastructure Large project promotions UI design/SEO Big Data Department Technology R&D IT Promotion Recruit Holdings Recruit Career Recruit Sumai Company Recruit Lifestyle Recruit Jobs Recruit Staffing Recruit Marketing Partners Staff service Holdings Recruit Technologies Recruit Administration Recruit Communications Operation Service
  • 9. 9Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 最近のデータ活用状況紹介
  • 10. 10Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Server Database 数値で見るデータ解析環境 エコシステム 本番165台/開発24台 1342.2TB
  • 11. 11Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 数値で見るHadoopの使われ方 28,344 1038万 1日あたりの全JOBの数 1日あたりの全Hbaseクエリの数
  • 12. 12Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 数値で見るデータ解析案件状況 約200 データ解析案件数(年間) ビッグデータ部の案件従事人数 240
  • 13. 13Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. word2vecを使ったレコメンドシステム
  • 14. 14Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. word2vecとは  各単語を表現するベクトルを学習  単語から文書中でその単語の前後に現れる単語を予測できるような表現を学習  単語を表す1-of-k表現のベクトルを入力とし、その単語の前後にある単語の出現確率 を出力とするニューラルネットを学習させ、その中間層の値を単語を表現するベクトルとし て用いる w(t) w(t-1) w(t+1) w(t+2) w(t-2) INPUT PROJECTION OUTPUT INPUT: 単語の1-of-k表現 PROJECTION: 単語 線形変換 階層的 soft-max OUTPUT: 前後の単語の出現確率 𝑝(𝑤(𝑡+𝑖)|𝑤(𝑡)) 目的関数
  • 15. 15Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. word2vecとは While expanding its channel for distribution information from paper publication to the net and mobile, the company has been pushing for a shift of their revenue from … … … while(0.1, 0.4, 0.3, 0.7, …) expanding(0.2, 0.5, 0.7, 0.7, …) its(0.1, 0.1, 0.9, 0.6, …) channel(0.6, 0.4, 0.9, 0.5, …) for(0.5, 0.8, 0.2, 0.1, …) distribution(0.8, 0.4, 0.1, 0.2, …) information(0.3, 0.7, 0.3, 0.6, …) … … … … 文書データ ベクトルデータ word2vec 文書データを元に単語毎のベクトルデータを生成する
  • 16. 16Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 仮説 〜 word2vecをレコメンドに使う着眼点 アイテムベクトルの近さがアイテムの類似度として見なせるのではないか? 精度 単語間の文脈の純度を高めれば、類似度の 精度が高まるのでは? ベクトル レコメンドしたいアイテムをベクトル化して、類 似度を求められるのでは?
  • 17. 17Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドに適したword2vecのインプットデータとは インプットデータとしてユーザーアクションログを使用する wikipediaなどの テキストデータ サービスユーザーの アクションログデータ  ノイズが混じる  必要なアイテム全てを網羅できない user1 time1 ~~~~~~ user2 time2 ~~~~~~ user3 time3 ~~~~~~ … … …  アイテムの関係性を内包する  必要なアイテム全てを網羅できる
  • 18. 18Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 文章と単語の作り方 I am a cat. As yet I have no name.
  • 19. 19Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 文章と単語の作り方 I am a cat. As yet I have no name. 文章 文章
  • 20. 20Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 文章と単語の作り方 I am a cat. As yet I have no name. 文章 文章 単語
  • 21. 21Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. アクションログを使った時の文章と単語の作り方 User-1 : User-2 : User-3 : 時系列 item-A item-B item-C item-D item-E … item-V item-W item-X item-Y item-Z … item-O item-P item-Q item-R item-S … ユーザー毎のアイテムに対するアクションログ … 文章 単語
  • 22. 22Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. アクションログを使った時の文章と単語の作り方 1ユーザーのアクション履歴を1文章、アイテムを単語、と置き換える User-1 : User-2 : User-3 : 時系列 item-A item-B item-C item-D item-E … item-V item-W item-X item-Y item-Z … item-O item-P item-Q item-R item-S … ユーザー毎のアイテムに対するアクションログ …
  • 23. 23Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. word2vecのアウトプットデータ アクション ログデータ word2vec user1 item-A item-B item-C… user2 item-D item-E item-F… user3 item-G item-Q item-X… user4 item-L item-K item-V… … … …
  • 24. 24Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. word2vecのアウトプットデータ アクション ログデータ word2vec itemベクトル データ user1 item-A item-B item-C… user2 item-D item-E item-F… user3 item-G item-Q item-X… user4 item-L item-K item-V… … … … item-A (0.1, 0.9, 0.6, 0.4, ……) item-B (0.2, 0.5, 0.1, 0.8, ……) item-C (0.7, 0.3, 0.3, 0.4, ……) item-D (0.5, 0.9, 0.8, 0.2, ……) … … …
  • 25. 25Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. word2vecのアウトプットデータ アクション ログデータ word2vec itemベクトル データ cos類似度 user1 item-A item-B item-C… user2 item-D item-E item-F… user3 item-G item-Q item-X… user4 item-L item-K item-V… … … … item-A (0.1, 0.9, 0.6, 0.4, ……) item-B (0.2, 0.5, 0.1, 0.8, ……) item-C (0.7, 0.3, 0.3, 0.4, ……) item-D (0.5, 0.9, 0.8, 0.2, ……) … … …
  • 26. 26Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. word2vecのアウトプットデータ アクション ログデータ word2vec itemベクトル データ item類似度 データ cos類似度 user1 item-A item-B item-C… user2 item-D item-E item-F… user3 item-G item-Q item-X… user4 item-L item-K item-V… … … … item-A (0.1, 0.9, 0.6, 0.4, ……) item-B (0.2, 0.5, 0.1, 0.8, ……) item-C (0.7, 0.3, 0.3, 0.4, ……) item-D (0.5, 0.9, 0.8, 0.2, ……) … … … item-A, item-B, 0.976 item-A, item-C, 0.329 item-A, item-D, 0.743 item-A, item-E, 0.552 … … …
  • 27. 27Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. word2vecのアウトプットデータ word2vecで出来上がったベクトルデータでアイテム間のcos類似度を算出 アクション ログデータ word2vec itemベクトル データ item類似度 データ cos類似度 user1 item-A item-B item-C… user2 item-D item-E item-F… user3 item-G item-Q item-X… user4 item-L item-K item-V… … … … item-A (0.1, 0.9, 0.6, 0.4, ……) item-B (0.2, 0.5, 0.1, 0.8, ……) item-C (0.7, 0.3, 0.3, 0.4, ……) item-D (0.5, 0.9, 0.8, 0.2, ……) … … … item-A, item-B, 0.976 item-A, item-C, 0.329 item-A, item-D, 0.743 item-A, item-E, 0.552 … … …
  • 28. 28Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. word2vecのアウトプットデータ アクション ログデータ word2vec itemベクトル データ item類似度 データ cos類似度 user1 item-A item-B item-C… user2 item-D item-E item-F… user3 item-G item-Q item-X… user4 item-L item-K item-V… … … … item-A (0.1, 0.9, 0.6, 0.4, ……) item-B (0.2, 0.5, 0.1, 0.8, ……) item-C (0.7, 0.3, 0.3, 0.4, ……) item-D (0.5, 0.9, 0.8, 0.2, ……) … … … item-A, item-B, 0.976 item-A, item-C, 0.329 item-A, item-D, 0.743 item-A, item-E, 0.552 … … … アイテム間の類似度の計算は億オーダの回 数必要になるため、分散処理している word2vecで出来上がったベクトルデータでアイテム間のcos類似度を算出
  • 29. 29Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドリストの作成 〜 実サービスへの適用 ユーザー
  • 30. 30Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドリストの作成 〜 実サービスへの適用 ユーザー item-A item-B item-C item-D item-E 時系列 ① ユーザーが最直近でア クションしたアイテムを 10件抽出
  • 31. 31Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドリストの作成 〜 実サービスへの適用 ユーザー item-A item-B item-C item-D item-E 時系列 ① ② ユーザーが最直近でア クションしたアイテムを 10件抽出 それぞれのアイテムに対 して、cos類似度の高 いアイテムを抽出 item-Q item-I item-O item-P item-L item-X item-T item-U item-S item-M item-R item-G item-F item-W item-Z
  • 32. 32Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドリストの作成 〜 実サービスへの適用 ユーザー item-A item-B item-C item-D item-E 時系列 ① ② ③ ユーザーが最直近でア クションしたアイテムを 10件抽出 それぞれのアイテムに対 して、cos類似度の高 いアイテムを抽出 リストを作成 (重複したアイテムを 除く) item-Q item-I item-O item-P item-L item-X item-T item-U item-S item-M レコメンド item-R item-G item-F item-W item-Z
  • 33. 33Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドリストの作成 〜 実サービスへの適用 word2vecを元に作られたベクトルデータを使ってレコメンドリストを作成 ユーザー item-A item-B item-C item-D item-E 時系列 ① ② ③ ユーザーが最直近でア クションしたアイテムを 10件抽出 それぞれのアイテムに対 して、cos類似度の高 いアイテムを抽出 リストを作成 (重複したアイテムを 除く) item-Q item-I item-O item-P item-L item-X item-T item-U item-S item-M レコメンド item-R item-G item-F item-W item-Z
  • 34. 34Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実証実験① 〜 オフラインテスト 従来のレコメンドエンジンと比較して、効果が約1.6倍高い事が分かった 0 0.5 1 1.5 2 2.5 1 2 3 4 5 6 7 8 9 10 11 12 従来ロジックとword2vecによるKPIの比較 (従来ロジックを1とした時の比較) 系列1 系列2 概要 過去のユーザログデータを用いてバックミラー分析を行い、従来ロジックとword2vec ロジックのレコメンド精度の比較を行う
  • 35. 35Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実証実験② 〜 ABテスト サービスY CVRが 156% 改善 3.57% ⇒ 9.15% サービスX CVRが 31% 改善 46.59%⇒ 61.13% 概要 オンラインで、ユーザーを2つのグループに分け、従来ロジックとword2vecロジックの レコメンドリストを提示し、CVRの違いを調査する オンラインでもword2vecロジックによるレコメンドの方が効果が高い
  • 36. 36Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドエンジンの更なる進化 〜 仮説 ベクトルを足し合わせれば、志向ベクトルを作れる!? ベクトル ベクトルを足し合わせると、ユーザーの志向を 捉える事が出来るのではないか? item-A item-B User-Vec item-D item-C
  • 37. 37Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドエンジンの更なる進化 〜 ベクトル足し算 ユーザー
  • 38. 38Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドエンジンの更なる進化 〜 ベクトル足し算 ユーザー item-A item-B item-C item-D item-E 時系列 ① ユーザーが 最直近でア クションした アイテムを 10件抽出
  • 39. 39Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドエンジンの更なる進化 〜 ベクトル足し算 ユーザー item-A item-B item-C item-D item-E 時系列 ① ② ユーザーが 最直近でア クションした アイテムを 10件抽出 それぞれのアイテ ムのベクトルを足 し、合成ベクトル を作成 Int-Vec
  • 40. 40Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドエンジンの更なる進化 〜 ベクトル足し算 ユーザー item-A item-B item-C item-D item-E 時系列 ① ② ユーザーが 最直近でア クションした アイテムを 10件抽出 それぞれのアイテ ムのベクトルを足 し、合成ベクトル を作成 item-Q item-I item-O Int-Vec ③ 合成ベクトルと 類似度の高いア イテムを抽出
  • 41. 41Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドエンジンの更なる進化 〜 ベクトル足し算 ユーザー item-A item-B item-C item-D item-E 時系列 ① ② ④ ユーザーが 最直近でア クションした アイテムを 10件抽出 それぞれのアイテ ムのベクトルを足 し、合成ベクトル を作成 リストを作成 item-Q item-I item-O レコメンド Int-Vec ③ 合成ベクトルと 類似度の高いア イテムを抽出
  • 42. 42Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドエンジンの更なる進化 〜 ベクトル足し算 ユーザーがアクションしたアイテムの合成ベクトルを志向ベクトルと見なす ユーザー item-A item-B item-C item-D item-E 時系列 ① ② ④ ユーザーが 最直近でア クションした アイテムを 10件抽出 それぞれのアイテ ムのベクトルを足 し、合成ベクトル を作成 リストを作成 item-Q item-I item-O レコメンド Int-Vec ③ 合成ベクトルと 類似度の高いア イテムを抽出
  • 43. 43Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドエンジンの更なる進化 〜 効果検証 ベクトルを足し合わせる事によってユーザーの志向を捉える事が出来た サービスZ CVRが 27% 改善 21.56% ⇒ 27.29% 概要 オンラインで、ユーザーを2つのグループに分け、word2vecロジックとword2vec足 し合わせロジックでのレコメンドリストを提示し、CVRの違いを調査する
  • 44. 44Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドエンジンへの実装 〜 Hadoop活用 Hadoop レコメンド生成 バッチ ユーザー 行動ログ 集計バッチユーザー情報 行動ログ ユーザー毎の レコメンド ユーザー毎のパーソナライズレコメンドを日次で実施(主にHive)
  • 45. 45Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ユーザー Web HBase レコメンドテーブルの 参照API Hadoop 行動ログ 集計バッチ 検索API APIリクエスト 検索行動 レコメンド取得 レコメンド バルクロード テーブル参照 リアルタイムレコメンドへの実装 〜 HBase活用 ユーザーの志向をリアルタイムで捉え、リアルタイムにレコメンドを実施
  • 46. 46Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ここまでのまとめ • ユーザーのアクションログをword2vecのインプットに使用し、ア イテムをベクトル化している →文章を1ユーザーのログ、単語をアイテムと見なす • ベクトル同士のcos類似度を計算することで、レコメンドエンジン に活用している • 類似度計算ではHadoopを使って分散処理を行い高速化して いる • ベクトルを足し合わせることでユーザーの志向を捉える事ができ る
  • 47. 47Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. doc2vecを使った文書要約
  • 48. 48Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. doc2vecとは 文章をベクトル化する 1. I am a cat. 2. As yet I have no name. 3. … … 1. I am a cat. (0.2, 0.4, 0.9, …) 2. As yet I have no name. (0.5, 0.7, 0.8, …) 3. … … doc2vec
  • 49. 49Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 仮説 〜 doc2vecを文書要約に使う着眼点 一番大きな領域を作る文章ベクトルを取れば、文書のまとめが作れる!? ベクトル 領域 複数の文章ベクトルによって作られた領域は、 その中に入るベクトルを意味的に内包するの ではないか?
  • 50. 50Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 文書要約のイメージ 文章1 文章2 文章10 文書… 文章3
  • 51. 51Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 文書要約のイメージ 文章1 文章2 文章10 文書… 文章3 文章をベクトル化して プロットする
  • 52. 52Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 文書要約のイメージ 文章1 文章2 文章10 文書… 文章3 文章をベクトル化して プロットする 文章1 文章10 文章7 文章6 文章3 文章2 文章9 文章5 文章4 文章8
  • 53. 53Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 文書要約のイメージ 文章1 文章2 文章10 文書… 文章3 文章をベクトル化して プロットする 文章1 文章10 文章7 文章6 文章3 文章2 文章9 文章5 文章4 文章8 【参考論文】 http://www.cs.cmu.edu/~dyogatam/papers/yogatama+liu+smith.em nlp2015.pdf
  • 54. 54Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 文書要約のイメージ 文章1 文章2 文章10 文書… 文章3 文章をベクトル化して プロットする 文章1 文章10 文章7 文章6 文章3 文章2 文章9 文章5 文章4 文章8 【参考論文】 http://www.cs.cmu.edu/~dyogatam/papers/yogatama+liu+smith.em nlp2015.pdf 文書1,3,6,7,10は 文書2,4,5,8,9を意 味的に内包するので はないか?
  • 55. 55Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実証実験 〜 プレミア12に関する投稿をまとめてみる ちなみに試合の内容は… ・4番の中村選手が欠場 ・先発の前田投手が好投(7回無失点) ・打線は13安打9得点 ・坂本選手が16打席ぶりのヒットを含む2安打3打点 ・9回にプエルトリコが3ランホームラン etc… 実験手順  記事の内容の把握、及びクレンジング プレミア12準々決勝 日本vsプエルトリコの試合のニュース記事に関するコメン ト(計161件)  投稿のベクトル化、及びまとめに使用する投稿の抽出 今回は5つのコメントを抽出して要約を試みる
  • 56. 56Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実証実験 〜 プレミア12に関する投稿をまとめてみる 結果 前田健太はもう決勝投げないだろうな 今日7回まで行かしたってことはそういうこ とだな。 来季メジャーもあるし無理はさせな い。 先発は 大谷と菅野か武田 中継ぎは山崎・則本・牧田 炎上組 松井・増井・西・小川 微妙組 大野・澤村 なんか炎上組は使いたくないし大野 と澤村も内容悪いし やっぱ中継ぎ全然足りてないわ CS見てない人にはわからないかもしれん が、大谷は間隔が空きすぎるとダメになる。 ましてや東京ドームが苦手。 初戦でボコられた韓国サイドは研究に 研究を重ねてリベンジして来ると考えると炎 上して大敗するのが妥当。 よって戦犯大谷ということになる。 まあ、野手が頑張って打撃戦に持ち込 めば話は別だが、相手の先発は何があって も負けないイデウンだから無理でしょう。 仮に大谷が炎上して負けても大谷一 人のせいにしないで欲しいです(涙)。 調整登板させなかった首脳陣にも問題 があるんだから(震え声) ツイッター上のハムファン全員が増井燃え ると予言してて草生えたわw やはり増井はセーブかホールド機会で 投げさせないとアカンな 平田三塁打→松田犠牲フライで実質 試合終了なものだろ ここで一番温い試合してしまったのは 問題あるわ 増井に不安がある以上マッスルミュー ジカルは覚悟しとかないとな マエケンは7回90球、中4日で決勝先 発は十分ありうる 中村外して中村入れる打線は悪くは ないんだが中田が案の定6番外れたら内 容が悪くなった どうすりゃいいんかね? 今まできつい試合ばかりだったからね、こんな試合もたまにはいいでしょ。でも、気は弛めな いで!
  • 57. 57Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実証実験 〜 プレミア12に関する投稿をまとめてみる 特定の偏ったコメントではなく、満遍なくコメントが拾う事が可能 結果 前田健太はもう決勝投げないだろうな 今日7回まで行かしたってことはそういうこ とだな。 来季メジャーもあるし無理はさせな い。 先発は 大谷と菅野か武田 中継ぎは山崎・則本・牧田 炎上組 松井・増井・西・小川 微妙組 大野・澤村 なんか炎上組は使いたくないし大野 と澤村も内容悪いし やっぱ中継ぎ全然足りてないわ CS見てない人にはわからないかもしれん が、大谷は間隔が空きすぎるとダメになる。 ましてや東京ドームが苦手。 初戦でボコられた韓国サイドは研究に 研究を重ねてリベンジして来ると考えると炎 上して大敗するのが妥当。 よって戦犯大谷ということになる。 まあ、野手が頑張って打撃戦に持ち込 めば話は別だが、相手の先発は何があって も負けないイデウンだから無理でしょう。 仮に大谷が炎上して負けても大谷一 人のせいにしないで欲しいです(涙)。 調整登板させなかった首脳陣にも問題 があるんだから(震え声) ツイッター上のハムファン全員が増井燃え ると予言してて草生えたわw やはり増井はセーブかホールド機会で 投げさせないとアカンな 平田三塁打→松田犠牲フライで実質 試合終了なものだろ ここで一番温い試合してしまったのは 問題あるわ 増井に不安がある以上マッスルミュー ジカルは覚悟しとかないとな マエケンは7回90球、中4日で決勝先 発は十分ありうる 中村外して中村入れる打線は悪くは ないんだが中田が案の定6番外れたら内 容が悪くなった どうすりゃいいんかね? 今まできつい試合ばかりだったからね、こんな試合もたまにはいいでしょ。でも、気は弛めな いで!
  • 58. 58Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実サービスへの展望 〜 口コミのまとめ MROC(Marketing Research Online Community) ある特定の商品やテーマなど共通の興味を持った人々をメンバー限定のコミュニ ティに招待し、自由にディスカッションしてもらいながら、消費者のニーズを探る調 査手法 どのような事が話されているかを整 理する事が非常に大変 一つのテーマにつき、数百のコメント が付く
  • 59. 59Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実サービスへの展望 〜 口コミのまとめ アットホームな 式にしたい リゾート挙式が したい 極力シンプルに したい 沢山のゲストに 来て欲しい テーマに対してどのようなコメントが来ているのかをまとめる
  • 60. 60Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実サービスへの展望 〜 新規コメントの抽出
  • 61. 61Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実サービスへの展望 〜 新規コメントの抽出 ① 既存の口コミで領域を 作成
  • 62. 62Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実サービスへの展望 〜 新規コメントの抽出 ① 既存の口コミで領域を 作成
  • 63. 63Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実サービスへの展望 〜 新規コメントの抽出 ① ② 既存の口コミで領域を 作成 新規の口コミをプロット
  • 64. 64Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実サービスへの展望 〜 新規コメントの抽出 新規の口コミが「新しい内容を含むかどうか」の判別を行う ① ② ③ 既存の口コミで領域を 作成 新規の口コミをプロット 領域に含まれるか否か を判定
  • 65. 65Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. まとめ
  • 66. 66Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 本日のまとめ • ユーザーのアクションログをword2vecのインプットに使用し、ア イテムをベクトル化している • ベクトル同士のcos類似度を計算することで、レコメンドエンジン に活用している • ベクトルを足し合わせることでユーザーの志向を捉える事ができ る • 文書要約にdoc2vecを活用している • 定性的に見て、doc2vecを使った文書要約が有用であること が分かった • doc2vecを口コミの整理や、新たなコメントの内容が新規であ るかどうかの判断ロジックとして活用を検討
  • 67. 67Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 今後の展望 リアルタイムでのユー ザー志向分析 グラフ分析及び グラフDBの導入 A B C D E w(t) w(t+1) w(t+5) ・ ・ ・ w(t-1) w(t-5) ・ ・ ・
  • 68. 68Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ビジネスを踏まえて 泥臭くかつアグレッシブに 分析・エンジニアリングが できる方。 ご連絡ください。 戦友をさがしています。 Yes, We Are Hiring! 池田 裕一