SlideShare ist ein Scribd-Unternehmen logo
1 von 26
Downloaden Sie, um offline zu lesen
自然言語処理の活用事例
〜オーディエンスの性別推定の仕組み
Developers Night #12

© 2019 GMO AD Marketing Inc. 2
1. 自然言語処理の要約
2. 広告オーディエンスの性別推定の仕組みの紹介


今回の内容 
© 2019 GMO AD Marketing Inc. 3
自然言語処理の要約


 
© 2019 GMO AD Marketing Inc. 4
 自然言語処理とは

 
自然言語処理(NLP, Natural language processing)は人間が日常的に使っている自然言語をコン
ピュータに処理させる一連の技術であり、人工知能と言語学の一分野です。

 

NLP
Personal assistant
機械翻訳
検索エンジン
自然言語
© 2019 GMO AD Marketing Inc. 5
自然言語処理の市場規模 

...
全世界で2019年では1兆円の規模でしたが、 2025年には見積もり5兆円(2018年のオンラン広告の市場規
模は1兆4480億円)の市場規模になる予想 (調査会社Tracticaより)
© 2019 GMO AD Marketing Inc. 6
自然言語処理の一般的な処理の流れ 

機械翻訳の例で説明します。



...
NLP日本語 英語
© 2019 GMO AD Marketing Inc. 7

 私は博多ラーメンが大好きです!
自然言語処理の一般的な処理の流れ 

形態素解析
(* 中国語、日本語、タイ語な
ど単語の分かち書きをしない
言語に必要の処理)
数値化する
私, は, 博多, ラーメン, が , 大好き , です
103, 120, 001,100, 110, 033, 221
機械学習のモデルでエンコー
ドする
(autoencoder)
日本語を入力
機械学習のモデルでデコード
する
(autoencoder)
[1.3, 3.2, 4.3]
I like Hakata Ramen very much
英語を出力
© 2019 GMO AD Marketing Inc. 8

 私は博多ラーメンが大好きです!
自然言語処理の一般的な処理の流れ 

形態素解析
(* 中国語、日本語、タイ語な
ど単語の分かち書きをしない
言語に必要の処理)
数値化する
私, は, 博多, ラーメン, が , 大好き , です
103, 120, 001,100, 110, 033, 221
機械学習のモデルでエンコー
ドする
(autoencoder)
日本語を入力
機械学習のモデルでデコード
する
(autoencoder)
[1.3, 3.2, 4.3]
I like Hakata Ramen very much
英語を出力
© 2019 GMO AD Marketing Inc. 9
数値化手法の一つTF/IDFを紹介する


 
© 2019 GMO AD Marketing Inc. 10
 
単語の出現頻度(TF)

...
単語 単語の出現頻度
一つの一番直感的な考えるのは指定された単語 の文書内で
の出現回数を数字化の指標として使うことです。
よく出現する単語は、その文書の特徴を判別するのに有用!


数値化指標

単語 の文書内での出現回数 

文書内単語の総数

© 2019 GMO AD Marketing Inc. 11
 
単語の出現頻度(TF)

...
単語 単語の出現頻度
単語の出現頻度だけで数値化する指標にとして使うのは一つ
大きな欠点があります。
数値化指標

単語 の文書内での出現回数 

文書内単語の総数

© 2019 GMO AD Marketing Inc. 12
 
単語の出現頻度(TF)の欠点

...
単語 単語の出現頻度
単語の出現頻度のみで scoreが高い単語は助詞になるかもし
れません。


は: 300

が: 288

です: 100

…

数値化指標

単語 の文書内での出現回数 

文書内単語の総数

© 2019 GMO AD Marketing Inc. 13
 
逆文書頻度(IDF)

...
単語
逆文書頻度
単語 が出現する文書の数


文章の総数

色々な文書によく出現する単
語」なら低い値を示すもので
す。 

LOG( ) + 1 

© 2019 GMO AD Marketing Inc. 14
 
数値化する

...
単語
逆文書頻度
単語の出現
頻度
TF
x IDF
色々な文書によく出現する単
語」なら高い値を示すもので
す。 

数値化指標

X

単語 が出現する文書の数 

文章の総数

LOG( ) + 1

単語 の文書内での出現回数 

文書内単語の総数

© 2019 GMO AD Marketing Inc. 15


例 
分析対象になる文章 :
[文書A] 博多ラーメンは一番最高 !
[文書B] 札幌ラーメンは最高 !


TF(博多) = 1 / 4 = 0.25
TF(札幌) = 1 / 4 = 0.25
TF(ラーメン) = 2 / 4 = 0.5
IDF(博多) = log(2) + 1 = 1.3
IDF(札幌) = log(2) + 1 = 1.3
IDF(ラーメン) = log(2/2) + 1 = 1
[文書A] 博多, ラーメン
[文書B] 札幌, ラーメン


形態素解析で名詞だけ抽出 

TF/IDFを算出

© 2019 GMO AD Marketing Inc. 16
オンライン広告業界で
自然言語処理の実用例




© 2019 GMO AD Marketing Inc. 17
オンライン広告の男女予測問題 

男性と女性が広告について好みが違うので、もし Webサイトをみっている
人の性別の情報が分かれば広告の施策を有利に行えます
化粧品の広告
競馬の広告
メディアサイド
メディアサイド
© 2019 GMO AD Marketing Inc. 18
 

機械学習問題の処理流れ 

学習データの集計
機械学習モデルを訓練
機械学習モデルを運用
© 2019 GMO AD Marketing Inc. 19
学習データの集計


© 2019 GMO AD Marketing Inc. 20
オンライン広告を表示する際の簡単な流れ 

❸ リクエストの情報をLogへ保存する
❹ 該当するオーディエンスに対する適切
な広告が決まる
ユーザー Media Site( 例えば: NHK News)
AD Network
❶ アクセス ❷ 広告リクエスト
❺ 広告のリンクを送る❻ 広告を表示する
● この五つのステップは数ミリセカンドで完了する。
● AD Networkは複数の広告媒体( Webサイトやソーシャルメディ
ア、ブログ等)を集めて広告配信ネットワークを作り、それらの
媒体に広告をまとめて配信する仕組みのことです
ミリセカンド
© 2019 GMO AD Marketing Inc. 21
学習データの集計

❸ リクエストの情報をLogへ保存する。log
にはmedia先のURL,直前にアクセスした
URL,性別、アクセス時間など情報が含ま
れている
❹ Logをもとに最適な広告を選ぶ
ユーザー ユーザーの 性 別 の 情 報 を
持っているMedia Site AD network
❶ アクセス
❷ 広告リクエスト +
ユーザーの性別
❺ 広告のリンクを送る❻ 広告を表示する
© 2019 GMO AD Marketing Inc. 22
機械学習モデルを訓練
&運用


© 2019 GMO AD Marketing Inc. 23
オンライン広告業界でNLPの実用例 

男性のオーディエンス群と女性のオーディエンス群は日々アクセスしているウェ
ブサイトと時間が異なります。この相違に基づいて性別の情報を推定できるはず
です。
男
女 URL
NLPの処理
数
字
化
し
た
特
徴
?
❶
学
習
URL
NLPの処理
数
字
化
し
た
特
徴
❷入力
❸予測
0.8
0.2
性別の情報 +
アクセスしたURLの履
歴
アクセスしたURLの履
歴
機械学習の
分類モデル
© 2019 GMO AD Marketing Inc. 24
今回紹介した方法において、AkaNe・ReeMoで
82%の正解度が得られました。(100回の予測に82回正解)
© 2019 GMO AD Marketing Inc. 25
以上です

ご清聴いただき

ありがとうございました

© 2019 GMO AD Marketing Inc. 26


● 自然言語処理、 2018年6月22日、ウィキペディア日本語版、
https://ja.wikipedia.org/wiki/自然言語処理

● Natural Language Processing Is a Key Engine of AI Market Growth, Enabling 44
Discrete Use Cases Across 17 Industries,
https://www.tractica.com/newsroom/press-releases/natural-language-processing-
is-a-key-engine-of-ai-market-growth-enabling-44-discrete-use-cases-across-17
-industries/



参考文献


Weitere ähnliche Inhalte

Ähnlich wie 自然言語処理の活用事例_オーディエンスの性別推定の仕組み

Nativ.team presentation2019
Nativ.team presentation2019Nativ.team presentation2019
Nativ.team presentation2019Nativ,inc
 
あるある定番施策見直し Ginzamarkets資料 20140416
あるある定番施策見直し Ginzamarkets資料 20140416あるある定番施策見直し Ginzamarkets資料 20140416
あるある定番施策見直し Ginzamarkets資料 20140416DemandSphere
 
190515 tmh online_videomarketing_v13_slideshare
190515 tmh online_videomarketing_v13_slideshare190515 tmh online_videomarketing_v13_slideshare
190515 tmh online_videomarketing_v13_slideshareikedanoriyuki
 
201410 12【媒体資料】bypass 20140929
201410 12【媒体資料】bypass 20140929201410 12【媒体資料】bypass 20140929
201410 12【媒体資料】bypass 20140929Miho Marumo
 
人材紹介スキーム
人材紹介スキーム人材紹介スキーム
人材紹介スキームryuhei kasahara
 
【アド部講演】スマートフォンアプリマネタイズのコツ
【アド部講演】スマートフォンアプリマネタイズのコツ【アド部講演】スマートフォンアプリマネタイズのコツ
【アド部講演】スマートフォンアプリマネタイズのコツTomohiro Mukoyama
 
北米市場動向
北米市場動向北米市場動向
北米市場動向gipwest
 
2020/02/14 code.org meetup
2020/02/14 code.org meetup2020/02/14 code.org meetup
2020/02/14 code.org meetupYuta Tonegawa
 

Ähnlich wie 自然言語処理の活用事例_オーディエンスの性別推定の仕組み (10)

Nativ.team presentation2019
Nativ.team presentation2019Nativ.team presentation2019
Nativ.team presentation2019
 
あるある定番施策見直し Ginzamarkets資料 20140416
あるある定番施策見直し Ginzamarkets資料 20140416あるある定番施策見直し Ginzamarkets資料 20140416
あるある定番施策見直し Ginzamarkets資料 20140416
 
190515 tmh online_videomarketing_v13_slideshare
190515 tmh online_videomarketing_v13_slideshare190515 tmh online_videomarketing_v13_slideshare
190515 tmh online_videomarketing_v13_slideshare
 
201410 12【媒体資料】bypass 20140929
201410 12【媒体資料】bypass 20140929201410 12【媒体資料】bypass 20140929
201410 12【媒体資料】bypass 20140929
 
人材紹介スキーム
人材紹介スキーム人材紹介スキーム
人材紹介スキーム
 
2019年下半期アドバイザリーボードMTG資料
2019年下半期アドバイザリーボードMTG資料2019年下半期アドバイザリーボードMTG資料
2019年下半期アドバイザリーボードMTG資料
 
【アド部講演】スマートフォンアプリマネタイズのコツ
【アド部講演】スマートフォンアプリマネタイズのコツ【アド部講演】スマートフォンアプリマネタイズのコツ
【アド部講演】スマートフォンアプリマネタイズのコツ
 
Zgrow会社概要
Zgrow会社概要Zgrow会社概要
Zgrow会社概要
 
北米市場動向
北米市場動向北米市場動向
北米市場動向
 
2020/02/14 code.org meetup
2020/02/14 code.org meetup2020/02/14 code.org meetup
2020/02/14 code.org meetup
 

Mehr von GMOアドパートナーズ株式会社 (10)

機械学習を用いた広告配信での入札価格決定ロジック
機械学習を用いた広告配信での入札価格決定ロジック機械学習を用いた広告配信での入札価格決定ロジック
機械学習を用いた広告配信での入札価格決定ロジック
 
スケールする広告配信システムの作り方
スケールする広告配信システムの作り方スケールする広告配信システムの作り方
スケールする広告配信システムの作り方
 
アドテクノロジー入門 〜歴史と概要を学ぼう〜
アドテクノロジー入門 〜歴史と概要を学ぼう〜アドテクノロジー入門 〜歴史と概要を学ぼう〜
アドテクノロジー入門 〜歴史と概要を学ぼう〜
 
スクラムを半年間実践してみて
スクラムを半年間実践してみてスクラムを半年間実践してみて
スクラムを半年間実践してみて
 
GMOアドマーケティング GCP勉強会 第2回
GMOアドマーケティング GCP勉強会 第2回GMOアドマーケティング GCP勉強会 第2回
GMOアドマーケティング GCP勉強会 第2回
 
GMOアドマーケティングのインフラについて
GMOアドマーケティングのインフラについてGMOアドマーケティングのインフラについて
GMOアドマーケティングのインフラについて
 
未経験新卒入社でできること
未経験新卒入社でできること未経験新卒入社でできること
未経験新卒入社でできること
 
リーダブルコードの必要性と活用事例
リーダブルコードの必要性と活用事例リーダブルコードの必要性と活用事例
リーダブルコードの必要性と活用事例
 
Okyu
OkyuOkyu
Okyu
 
Junk
JunkJunk
Junk
 

Kürzlich hochgeladen

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 

Kürzlich hochgeladen (12)

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 

自然言語処理の活用事例_オーディエンスの性別推定の仕組み

  • 2. © 2019 GMO AD Marketing Inc. 2 1. 自然言語処理の要約 2. 広告オーディエンスの性別推定の仕組みの紹介 
 今回の内容 
  • 3. © 2019 GMO AD Marketing Inc. 3 自然言語処理の要約 
  
  • 4. © 2019 GMO AD Marketing Inc. 4  自然言語処理とは
   自然言語処理(NLP, Natural language processing)は人間が日常的に使っている自然言語をコン ピュータに処理させる一連の技術であり、人工知能と言語学の一分野です。
  
 NLP Personal assistant 機械翻訳 検索エンジン 自然言語
  • 5. © 2019 GMO AD Marketing Inc. 5 自然言語処理の市場規模 
 ... 全世界で2019年では1兆円の規模でしたが、 2025年には見積もり5兆円(2018年のオンラン広告の市場規 模は1兆4480億円)の市場規模になる予想 (調査会社Tracticaより)
  • 6. © 2019 GMO AD Marketing Inc. 6 自然言語処理の一般的な処理の流れ 
 機械翻訳の例で説明します。
 
 ... NLP日本語 英語
  • 7. © 2019 GMO AD Marketing Inc. 7 
 私は博多ラーメンが大好きです! 自然言語処理の一般的な処理の流れ 
 形態素解析 (* 中国語、日本語、タイ語な ど単語の分かち書きをしない 言語に必要の処理) 数値化する 私, は, 博多, ラーメン, が , 大好き , です 103, 120, 001,100, 110, 033, 221 機械学習のモデルでエンコー ドする (autoencoder) 日本語を入力 機械学習のモデルでデコード する (autoencoder) [1.3, 3.2, 4.3] I like Hakata Ramen very much 英語を出力
  • 8. © 2019 GMO AD Marketing Inc. 8 
 私は博多ラーメンが大好きです! 自然言語処理の一般的な処理の流れ 
 形態素解析 (* 中国語、日本語、タイ語な ど単語の分かち書きをしない 言語に必要の処理) 数値化する 私, は, 博多, ラーメン, が , 大好き , です 103, 120, 001,100, 110, 033, 221 機械学習のモデルでエンコー ドする (autoencoder) 日本語を入力 機械学習のモデルでデコード する (autoencoder) [1.3, 3.2, 4.3] I like Hakata Ramen very much 英語を出力
  • 9. © 2019 GMO AD Marketing Inc. 9 数値化手法の一つTF/IDFを紹介する 
  
  • 10. © 2019 GMO AD Marketing Inc. 10   単語の出現頻度(TF)
 ... 単語 単語の出現頻度 一つの一番直感的な考えるのは指定された単語 の文書内で の出現回数を数字化の指標として使うことです。 よく出現する単語は、その文書の特徴を判別するのに有用! 
 数値化指標
 単語 の文書内での出現回数 
 文書内単語の総数

  • 11. © 2019 GMO AD Marketing Inc. 11   単語の出現頻度(TF)
 ... 単語 単語の出現頻度 単語の出現頻度だけで数値化する指標にとして使うのは一つ 大きな欠点があります。 数値化指標
 単語 の文書内での出現回数 
 文書内単語の総数

  • 12. © 2019 GMO AD Marketing Inc. 12   単語の出現頻度(TF)の欠点
 ... 単語 単語の出現頻度 単語の出現頻度のみで scoreが高い単語は助詞になるかもし れません。 
 は: 300
 が: 288
 です: 100
 …
 数値化指標
 単語 の文書内での出現回数 
 文書内単語の総数

  • 13. © 2019 GMO AD Marketing Inc. 13   逆文書頻度(IDF)
 ... 単語 逆文書頻度 単語 が出現する文書の数 
 文章の総数
 色々な文書によく出現する単 語」なら低い値を示すもので す。 
 LOG( ) + 1 

  • 14. © 2019 GMO AD Marketing Inc. 14   数値化する
 ... 単語 逆文書頻度 単語の出現 頻度 TF x IDF 色々な文書によく出現する単 語」なら高い値を示すもので す。 
 数値化指標
 X
 単語 が出現する文書の数 
 文章の総数
 LOG( ) + 1
 単語 の文書内での出現回数 
 文書内単語の総数

  • 15. © 2019 GMO AD Marketing Inc. 15 
 例  分析対象になる文章 : [文書A] 博多ラーメンは一番最高 ! [文書B] 札幌ラーメンは最高 ! 
 TF(博多) = 1 / 4 = 0.25 TF(札幌) = 1 / 4 = 0.25 TF(ラーメン) = 2 / 4 = 0.5 IDF(博多) = log(2) + 1 = 1.3 IDF(札幌) = log(2) + 1 = 1.3 IDF(ラーメン) = log(2/2) + 1 = 1 [文書A] 博多, ラーメン [文書B] 札幌, ラーメン 
 形態素解析で名詞だけ抽出 
 TF/IDFを算出

  • 16. © 2019 GMO AD Marketing Inc. 16 オンライン広告業界で 自然言語処理の実用例 
 

  • 17. © 2019 GMO AD Marketing Inc. 17 オンライン広告の男女予測問題 
 男性と女性が広告について好みが違うので、もし Webサイトをみっている 人の性別の情報が分かれば広告の施策を有利に行えます 化粧品の広告 競馬の広告 メディアサイド メディアサイド
  • 18. © 2019 GMO AD Marketing Inc. 18  
 機械学習問題の処理流れ 
 学習データの集計 機械学習モデルを訓練 機械学習モデルを運用
  • 19. © 2019 GMO AD Marketing Inc. 19 学習データの集計 

  • 20. © 2019 GMO AD Marketing Inc. 20 オンライン広告を表示する際の簡単な流れ 
 ❸ リクエストの情報をLogへ保存する ❹ 該当するオーディエンスに対する適切 な広告が決まる ユーザー Media Site( 例えば: NHK News) AD Network ❶ アクセス ❷ 広告リクエスト ❺ 広告のリンクを送る❻ 広告を表示する ● この五つのステップは数ミリセカンドで完了する。 ● AD Networkは複数の広告媒体( Webサイトやソーシャルメディ ア、ブログ等)を集めて広告配信ネットワークを作り、それらの 媒体に広告をまとめて配信する仕組みのことです ミリセカンド
  • 21. © 2019 GMO AD Marketing Inc. 21 学習データの集計
 ❸ リクエストの情報をLogへ保存する。log にはmedia先のURL,直前にアクセスした URL,性別、アクセス時間など情報が含ま れている ❹ Logをもとに最適な広告を選ぶ ユーザー ユーザーの 性 別 の 情 報 を 持っているMedia Site AD network ❶ アクセス ❷ 広告リクエスト + ユーザーの性別 ❺ 広告のリンクを送る❻ 広告を表示する
  • 22. © 2019 GMO AD Marketing Inc. 22 機械学習モデルを訓練 &運用 

  • 23. © 2019 GMO AD Marketing Inc. 23 オンライン広告業界でNLPの実用例 
 男性のオーディエンス群と女性のオーディエンス群は日々アクセスしているウェ ブサイトと時間が異なります。この相違に基づいて性別の情報を推定できるはず です。 男 女 URL NLPの処理 数 字 化 し た 特 徴 ? ❶ 学 習 URL NLPの処理 数 字 化 し た 特 徴 ❷入力 ❸予測 0.8 0.2 性別の情報 + アクセスしたURLの履 歴 アクセスしたURLの履 歴 機械学習の 分類モデル
  • 24. © 2019 GMO AD Marketing Inc. 24 今回紹介した方法において、AkaNe・ReeMoで 82%の正解度が得られました。(100回の予測に82回正解)
  • 25. © 2019 GMO AD Marketing Inc. 25 以上です
 ご清聴いただき
 ありがとうございました

  • 26. © 2019 GMO AD Marketing Inc. 26 
 ● 自然言語処理、 2018年6月22日、ウィキペディア日本語版、 https://ja.wikipedia.org/wiki/自然言語処理
 ● Natural Language Processing Is a Key Engine of AI Market Growth, Enabling 44 Discrete Use Cases Across 17 Industries, https://www.tractica.com/newsroom/press-releases/natural-language-processing- is-a-key-engine-of-ai-market-growth-enabling-44-discrete-use-cases-across-17 -industries/
 
 参考文献