SlideShare ist ein Scribd-Unternehmen logo
1 von 20
【学生エンジニア限定】GMOアドパートナーズ MEETUP #2
NLPでオンライン広告のユーザーの性別を推定する方法
2019/09/02
© 2019 GMO AD Marketing Inc. 2
劉(リュウ)
- 所属: GMOアドマーケティング
- データマイニングチーム、機械学習エンジニア
- 出身: 中国福建省
- 趣味: 料理(中華)
- 得意なレシピ:
自己紹介
糖醋排骨(スペアリブの甘酢煮) 红烧肉(中国版の角煮)
© 2019 GMO AD Marketing Inc. 3
NLP要約
© 2019 GMO AD Marketing Inc. 4
NLPとは
NLPはNatural language processingの略で、日本語では自然言語処理といいます。
NLPは人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、
人工知能と言語学の一分野でもあります。
NLP
Personal assistant
機械翻訳
検索エンジン
自然言語
© 2019 GMO AD Marketing Inc. 5
NLPの市場規模
引用元: https://www.tractica.com/newsroom/press-releases/natural-language-
processing-is-a-key-engine-of-ai-market-growth-enabling-44-discrete-use-cases-across-
17-industries/
全世界で2018年に5000億円の規模になっており、2025年には5兆円(2018年のオンラン広告の市場規
模は1兆4480億円)の市場規模になる予想(調査会社Tracticaより)
© 2019 GMO AD Marketing Inc. 6
NLPの一般的な処理の流れ
機械翻訳の例で説明します。
...
NLP日本語 英語
© 2019 GMO AD Marketing Inc. 7
私は博多ラーメンが大好きです!
NLPの一般的な処理の流れ
形態素解析
(* 中国語、日本語、タイ語
など単語の分かち書きをし
ない言語に必要な処理)
数値化する
私, は, 博多, ラーメン, が , 大好き , です
103, 120, 001,100, 110, 033, 221
機械学習のモデルでエンコ
ードする
(autoencoder)
日本語を入力
機械学習のモデルでデコー
ドする
(autoencoder)
[1.3, 3.2, 4.3]
I like Hakata Ramen very much
英語を出力
© 2019 GMO AD Marketing Inc. 8
私は博多ラーメンが大好きです!
NLPの一般的な処理の流れ
形態素解析
(* 中国語、日本語、タイ語
など単語の分かち書きをし
ない言語に必要な処理)
数値化する
私, は, 博多, ラーメン, が , 大好き , です
103, 120, 001,100, 110, 033, 221
機械学習のモデルでエンコ
ードする
(autoencoder)
日本語を入力
機械学習のモデルでデコー
ドする
(autoencoder)
[1.3, 3.2, 4.3]
I like Hakata Ramen very much
英語を出力
© 2019 GMO AD Marketing Inc. 9
数値化する
単語 単語の出現頻度
数値化にあたっての代表的な手法の一つに、
処理対象の文書群から特定の単語の出現頻度を求め、
その出現頻度を数値化の指標として使う手法があります。
頻繁に出現する単語は、その文書の特徴を判別するのに有用です。
数値化指標
© 2019 GMO AD Marketing Inc. 10
数値化する
単語 単語の出現頻度
単語の出現頻度だけを数値化の指標として使う手法には
大きな欠点が一つあります。
数値化指標
© 2019 GMO AD Marketing Inc. 11
数値化する
単語 単語の出現頻度
単語の出現頻度のみで数値化すると、
scoreが高い単語は助詞になるかもしれません。
は: 300
が: 288
です: 100
…
数値化指標
© 2019 GMO AD Marketing Inc. 12
数値化する
単語
逆文書頻度
単語X
単語Xを含む文章の数
文章の総数
単語の出現
頻度
TF
/IDF
様々な文書に頻繁に出現する
単語なら低い値を示すもので
す。
数値化指標
LOG( )
© 2019 GMO AD Marketing Inc. 13
オンライン広告業界でNLPの実用例
© 2019 GMO AD Marketing Inc. 14
オンライン広告の男女予測問題
男性と女性では広告についての好みが違うので、ウェブサイトを閲覧し
ている人の性別情報が分かれば広告配信がより効率的になります
化粧品の広告
競馬の広告
メディアサイト
メディアサイト
© 2019 GMO AD Marketing Inc. 15
オンライン広告を表示する際の簡単な流れ
③ リクエストの情報をLogへ保存する
④ 該当するオーディエンスに配信する
適切な広告を決定する
ユーザー Media Site( 例えば: NHK News)
AD Network
① アクセス ② 広告リクエスト
⑤ 広告のリンクを送る⑥ 広告を表示する
● この5つのステップは数ミリセカンドで完了する
● AD Networkは複数の広告媒体(Webサイトやソーシャルメ
ディア、ブログ等)を集めて広告配信ネットワークを作り、
それらの媒体に広告をまとめて配信する仕組みのこと
ミリセカンド
© 2019 GMO AD Marketing Inc. 16
オンライン広告を表示する際の簡単な流れ
③ リクエストの情報をLogへ保存する。
logにはmedia先のURL,直前にアクセス
したURL,性別、アクセス時間など情報
が含まれている
④ 該当するオーディエンスに配信する
適切な広告を決定する
ユーザー ユーザーの性別情報を持っ
ているMedia Site AD network
① アクセス
② 広告リクエスト
+ ユーザーの性別
⑤ 広告のリンクを送る⑥ 広告を表示する
© 2019 GMO AD Marketing Inc. 17
オンライン広告業界でNLPの実用例
男性のオーディエンス群と女性のオーディエンス群は日々アクセスしてい
るウェブサイトと時間が異なります。この相違に基づいて性別の情報を推
定できるはずです。
男
女 URL
NLPの処理
数
字
化
し
た
特
徴
?
URL
NLPの処理
数
字
化
し
た
特
徴
②入力
③予測
0.8
0.2
性別の情報 +
アクセスしたURLの
履歴
アクセスしたURLの
履歴
機械学習の
分類モデル
© 2019 GMO AD Marketing Inc. 18
今回紹介した手法を社内のプロダクトに適用した結果、
82%の予測精度が得られました。(100回の予測に対して82回正解)
© 2019 GMO AD Marketing Inc. 19
以上です
ご清聴いただき
ありがとうございました
© 2019 GMO AD Marketing Inc. 20
● 自然言語処理、 2018年6月22日、ウィキペディア日本語版、
https://ja.wikipedia.org/wiki/自然言語処理
● Natural Language Processing Is a Key Engine of AI Market Growth,
Enabling 44 Discrete Use Cases Across 17 Industries,
https://www.tractica.com/newsroom/press-releases/natural-language-
processing-is-a-key-engine-of-ai-market-growth-enabling-44-discrete-
use-cases-across-17-industries/
参考文献

Weitere ähnliche Inhalte

Mehr von GMOアドパートナーズ株式会社 (6)

GMOSSPの開発現場!
GMOSSPの開発現場!GMOSSPの開発現場!
GMOSSPの開発現場!
 
学生の時に知りたかった会社選びのウラ技
学生の時に知りたかった会社選びのウラ技学生の時に知りたかった会社選びのウラ技
学生の時に知りたかった会社選びのウラ技
 
未経験新卒入社でできること
未経験新卒入社でできること未経験新卒入社でできること
未経験新卒入社でできること
 
リーダブルコードの必要性と活用事例
リーダブルコードの必要性と活用事例リーダブルコードの必要性と活用事例
リーダブルコードの必要性と活用事例
 
Okyu
OkyuOkyu
Okyu
 
Junk
JunkJunk
Junk
 

Kürzlich hochgeladen

業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 

Kürzlich hochgeladen (8)

業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 

NLPでオンライン広告のオーディエンスの性別を推定する方法

  • 2. © 2019 GMO AD Marketing Inc. 2 劉(リュウ) - 所属: GMOアドマーケティング - データマイニングチーム、機械学習エンジニア - 出身: 中国福建省 - 趣味: 料理(中華) - 得意なレシピ: 自己紹介 糖醋排骨(スペアリブの甘酢煮) 红烧肉(中国版の角煮)
  • 3. © 2019 GMO AD Marketing Inc. 3 NLP要約
  • 4. © 2019 GMO AD Marketing Inc. 4 NLPとは NLPはNatural language processingの略で、日本語では自然言語処理といいます。 NLPは人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、 人工知能と言語学の一分野でもあります。 NLP Personal assistant 機械翻訳 検索エンジン 自然言語
  • 5. © 2019 GMO AD Marketing Inc. 5 NLPの市場規模 引用元: https://www.tractica.com/newsroom/press-releases/natural-language- processing-is-a-key-engine-of-ai-market-growth-enabling-44-discrete-use-cases-across- 17-industries/ 全世界で2018年に5000億円の規模になっており、2025年には5兆円(2018年のオンラン広告の市場規 模は1兆4480億円)の市場規模になる予想(調査会社Tracticaより)
  • 6. © 2019 GMO AD Marketing Inc. 6 NLPの一般的な処理の流れ 機械翻訳の例で説明します。 ... NLP日本語 英語
  • 7. © 2019 GMO AD Marketing Inc. 7 私は博多ラーメンが大好きです! NLPの一般的な処理の流れ 形態素解析 (* 中国語、日本語、タイ語 など単語の分かち書きをし ない言語に必要な処理) 数値化する 私, は, 博多, ラーメン, が , 大好き , です 103, 120, 001,100, 110, 033, 221 機械学習のモデルでエンコ ードする (autoencoder) 日本語を入力 機械学習のモデルでデコー ドする (autoencoder) [1.3, 3.2, 4.3] I like Hakata Ramen very much 英語を出力
  • 8. © 2019 GMO AD Marketing Inc. 8 私は博多ラーメンが大好きです! NLPの一般的な処理の流れ 形態素解析 (* 中国語、日本語、タイ語 など単語の分かち書きをし ない言語に必要な処理) 数値化する 私, は, 博多, ラーメン, が , 大好き , です 103, 120, 001,100, 110, 033, 221 機械学習のモデルでエンコ ードする (autoencoder) 日本語を入力 機械学習のモデルでデコー ドする (autoencoder) [1.3, 3.2, 4.3] I like Hakata Ramen very much 英語を出力
  • 9. © 2019 GMO AD Marketing Inc. 9 数値化する 単語 単語の出現頻度 数値化にあたっての代表的な手法の一つに、 処理対象の文書群から特定の単語の出現頻度を求め、 その出現頻度を数値化の指標として使う手法があります。 頻繁に出現する単語は、その文書の特徴を判別するのに有用です。 数値化指標
  • 10. © 2019 GMO AD Marketing Inc. 10 数値化する 単語 単語の出現頻度 単語の出現頻度だけを数値化の指標として使う手法には 大きな欠点が一つあります。 数値化指標
  • 11. © 2019 GMO AD Marketing Inc. 11 数値化する 単語 単語の出現頻度 単語の出現頻度のみで数値化すると、 scoreが高い単語は助詞になるかもしれません。 は: 300 が: 288 です: 100 … 数値化指標
  • 12. © 2019 GMO AD Marketing Inc. 12 数値化する 単語 逆文書頻度 単語X 単語Xを含む文章の数 文章の総数 単語の出現 頻度 TF /IDF 様々な文書に頻繁に出現する 単語なら低い値を示すもので す。 数値化指標 LOG( )
  • 13. © 2019 GMO AD Marketing Inc. 13 オンライン広告業界でNLPの実用例
  • 14. © 2019 GMO AD Marketing Inc. 14 オンライン広告の男女予測問題 男性と女性では広告についての好みが違うので、ウェブサイトを閲覧し ている人の性別情報が分かれば広告配信がより効率的になります 化粧品の広告 競馬の広告 メディアサイト メディアサイト
  • 15. © 2019 GMO AD Marketing Inc. 15 オンライン広告を表示する際の簡単な流れ ③ リクエストの情報をLogへ保存する ④ 該当するオーディエンスに配信する 適切な広告を決定する ユーザー Media Site( 例えば: NHK News) AD Network ① アクセス ② 広告リクエスト ⑤ 広告のリンクを送る⑥ 広告を表示する ● この5つのステップは数ミリセカンドで完了する ● AD Networkは複数の広告媒体(Webサイトやソーシャルメ ディア、ブログ等)を集めて広告配信ネットワークを作り、 それらの媒体に広告をまとめて配信する仕組みのこと ミリセカンド
  • 16. © 2019 GMO AD Marketing Inc. 16 オンライン広告を表示する際の簡単な流れ ③ リクエストの情報をLogへ保存する。 logにはmedia先のURL,直前にアクセス したURL,性別、アクセス時間など情報 が含まれている ④ 該当するオーディエンスに配信する 適切な広告を決定する ユーザー ユーザーの性別情報を持っ ているMedia Site AD network ① アクセス ② 広告リクエスト + ユーザーの性別 ⑤ 広告のリンクを送る⑥ 広告を表示する
  • 17. © 2019 GMO AD Marketing Inc. 17 オンライン広告業界でNLPの実用例 男性のオーディエンス群と女性のオーディエンス群は日々アクセスしてい るウェブサイトと時間が異なります。この相違に基づいて性別の情報を推 定できるはずです。 男 女 URL NLPの処理 数 字 化 し た 特 徴 ? URL NLPの処理 数 字 化 し た 特 徴 ②入力 ③予測 0.8 0.2 性別の情報 + アクセスしたURLの 履歴 アクセスしたURLの 履歴 機械学習の 分類モデル
  • 18. © 2019 GMO AD Marketing Inc. 18 今回紹介した手法を社内のプロダクトに適用した結果、 82%の予測精度が得られました。(100回の予測に対して82回正解)
  • 19. © 2019 GMO AD Marketing Inc. 19 以上です ご清聴いただき ありがとうございました
  • 20. © 2019 GMO AD Marketing Inc. 20 ● 自然言語処理、 2018年6月22日、ウィキペディア日本語版、 https://ja.wikipedia.org/wiki/自然言語処理 ● Natural Language Processing Is a Key Engine of AI Market Growth, Enabling 44 Discrete Use Cases Across 17 Industries, https://www.tractica.com/newsroom/press-releases/natural-language- processing-is-a-key-engine-of-ai-market-growth-enabling-44-discrete- use-cases-across-17-industries/ 参考文献