Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

WebDB Forum 2016 gunosy

13.191 Aufrufe

Veröffentlicht am

WebDB Forum 2016
技術報告セッション
http://db-event.jpn.org/webdbf2016/program.html#industry_C8

Veröffentlicht in: Technologie
  • DOWNLOAD THIS BOOKS INTO AVAILABLE FORMAT (Unlimited) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download Full EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ACCESS WEBSITE for All Ebooks ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Antworten 
    Sind Sie sicher, dass Sie …  Ja  Nein
    Ihre Nachricht erscheint hier
  • DOWNLOAD THIS BOOKS INTO AVAILABLE FORMAT (Unlimited) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download Full EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ACCESS WEBSITE for All Ebooks ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Antworten 
    Sind Sie sicher, dass Sie …  Ja  Nein
    Ihre Nachricht erscheint hier

WebDB Forum 2016 gunosy

  1. 1. Gunosyにおける 畳み込みニューラルネットワークを応用した デモグラフィックの推定について WebDB Forum 2016 工藤 啓朗(Gunosy Inc.) 2016/09/14
  2. 2. 工藤 啓朗(くどう ひろあき)@Hmj_kd 株式会社 Gunosy データ分析部 ● 北海道釧路市出身 ● 高専 : 釧路高専 情報工学科 ● 大学 : 物理学科 ○ ブラックホール,Inflation 宇宙論 ● 現職 : 2016/02 Gunosy入社 ○ 記事配信アルゴリズムの改善,データ分析 自己紹介 Gunosy inc. 2
  3. 3. サマリー 1. ユーザの行動ログのデータを利用して年齢を推定 2. 理論的というよりも,実務的な試行錯誤についての共有 3. 畳み込みニューラルネットワーク(以下,CNN)を画像以外に応用 4. 精度など,いくつかの具体的な数値について,諸事情で公表できません.ご了承く ださい Gunosy inc. 3
  4. 4. アジェンダ 1. 自己紹介 2. Gunosy の紹介 3. ユーザのデモグラフィック推定の背景 4. モデル紹介 5. まとめと今後の課題 Gunosy inc. 4
  5. 5. Gunosy の紹介 Gunosy inc. Gunosyは 情報キュレーションサービス「グノシー」と 2016年6月1日にKDDI株式会社と共同でリリースした 無料ニュース配信アプリ「ニュースパス」を提供する 会社です。「情報を世界中の人に最適に届ける」を ビジョンに活動しています。 200媒体以上のニュースソースをベースに、 新たに開発した情報解析・配信技術を用いて自動的に 選定したニュースや情報をユーザーに届けます。 ネット上に存在するさまざまな情報を、 独自のアルゴリズムで収集、評価付けを行い ユーザーに届けます。 5
  6. 6. ユーザのデモグラフィック推定の背景 現状 Gunosy ではユーザのデモグラフィック(主に,性別や年齢)はわからない 一部のユーザでは,占いサービスなどによりその情報を得ることができる 理想 ユーザのデモグラフィックが分かると, デモグラ層毎に記事リストや広告を配信することができるようになる より最適な情報の提供ができ,ユーザ体験の向上を望むことができる Gunosy inc. 6
  7. 7. ユーザの年齢を知るには... Gunosy inc. 1. 直接ユーザにきく a. 入力ストレスなどでサービスから離脱してしまう恐れもある b. 全ユーザが入力してくれるわけではない c. → 上記を考慮して現時点では行わないという判断 2. 何かしらの手法で推定する a. ユーザが読んだ記事情報をもとに年齢を推定できないか ? b. 占いサービスの誕生日から計算して,正解データとして使用できるのではない か ? 7
  8. 8. クラス数 年齢を ~19歳,20~24歳,などの層に分けて, 全体で6つのクラスにわけて,多クラス分類問題とした 評価設定 10-fold cross-validation で 得られた Accuracy の平均にて評価した 年齢推定の問題設定 Gunosy inc. 8
  9. 9. 年齢推定のデータセットについて 対象ユーザは,集計期間中で記事の閲覧数が10以上のユーザ データセットの作成手順は,次の通り 1. 各ユーザが読んだ記事のIDのリストを用意 2. 記事IDを「単語」とみたてて辞書を作成 3. tf-idf で重み付けをする 4. 潜在意味インデキシング(Latent Semantic Indexing, 以下 LSI)でN次元に圧縮され たベクトルを作成 Gunosy inc. 9
  10. 10. 最初の推定 使用したモデル等 - モデル : SVM,Random Forest,Neural Network(以下,NN) - 使用したライブラリ : scikit-learn - 教師データ数 : 数万件(各クラス同じ程度になるようにした) - 精度 : 満足いく精度ではなかった その後の調査 NN のほうが,50代を10代と予測するような極端な間違い方が減った NN の系統でいくとうまくいくのではないか ? Gunosy inc. 10
  11. 11. CNN の応用へ 1. CNN を利用しようとした理由 2. CNN を応用する実験 a. 実験内容 b. 気づき 3. 自然言語処理で応用されているCNN を応用してNNモデルよりも +10 pt 4. CNN のモデル平均でさらに +10 pt ※ 自然言語処理で応用されているCNNを,以降 CNN for NLP と略します Gunosy inc. 11
  12. 12. CNN の応用へ 1. CNN を利用しようとした理由 2. CNN を応用する実験 a. 実験内容 b. 気づき 3. CNN for NLP を応用してNNモデルよりも +10 pt 4. CNN のモデル平均でさらに +10 pt Gunosy inc. 12
  13. 13. CNN を利用しようと思った理由 - 年齢毎に生活パターンに差異があると考えた - ユーザ毎に集計,画像化して,画像認識問題と考え て CNN を適用した - しかし,NNを超える精度はでなかった - 記事の閲覧ログにCNNを適用することを考えた Gunosy inc. 縦軸 : 曜日,横軸 : 時間,値 : 起動数 13
  14. 14. CNN の応用へ 1. CNN を利用しようとした理由 2. CNN を応用する実験 a. 実験内容 b. 気づき 3. CNN for NLP を応用してNNモデルよりも +10 pt 4. CNN のモデル平均でさらに +10 pt Gunosy inc. 14
  15. 15. LSI による次元圧縮後のベクトルを画像にみたてて,CNNを適用 記事の閲覧ログに CNN を応用する実験 Gunosy inc. . . . . . . . . . . . . ← 28 × 28 = 784次元ベクトル 28 個 1段目へ 28 個 2段目へ Conv Layer Pool Layer Conv Layer Pool Layer FC Layer 15
  16. 16. 記事の閲覧ログに CNN を応用する実験 実験環境 - AWS g2.2xlarge - Chainer 精度 - 前述のNNと比較して低かったですが,いくつかの気づきがあった Gunosy inc. 16
  17. 17. CNNを応用する実験 ~ 気づき1 CNNのパラメータをいくつか変更して実験 - フィルタの大きさ - フィルタの数 - フィルタの形状 - 入力画像の前処理の有無 - 新たな Conv Layer の挿入 横長のフィルタにすると平均の精度向上 Gunosy inc. 17
  18. 18. CNN(CPCP型)の上位層と下位層の特徴の違いからの気づき - 下位層の学習が初期化されたほうが,推定の精度が著しく落ちる - 下位層がタスク依存の特徴を抽出しているが - フィルタ形状によって各クラス毎の分類精度は異なる 異なるフィルタによる結果を合併できれば精度があがるのでは ? CNNを応用する実験 ~ 気づき2 Gunosy inc. 18 学習後のフィルタのパラメータに乱数を加えて学習を初 期化する,ということを何度か繰り返し,そのモデルで の推定結果がどうなるかを調べた
  19. 19. CNN の応用へ 1. CNN を利用しようとした理由 2. CNN を応用する実験 a. 実験内容 b. 気づき 3. CNN for NLP を応用してNNモデルよりも +10 pt 4. CNN のモデル平均でさらに +10 pt Gunosy inc. 19
  20. 20. CNN for NLP(Natural Language Processing, 自然言語処理 ) 前述の結果からいくつか横型のフィルタを組み合わせたい CNN for NLP が適用できると考えた 参考 : https://arxiv.org/pdf/1510.03820v4.pdf Gunosy inc. 20
  21. 21. 6つに分類 CNN for NLP を応用 入力データ 各フィルタの形状 縦 : (2, 4, 8),横 : 28 活性化関数 特徴マップを生成 Max Pooling 結合する Softmax Gunosy inc. 21 畳み込み
  22. 22. CNN for NLP の結果 これで NNモデルの精度に + 10pt となりました Gunosy inc. 22
  23. 23. CNN の応用へ 1. CNN を利用しようとした理由 2. CNN を応用する実験 a. 実験内容 b. 気づき 3. CNN for NLP を応用してNNモデルよりも +10 pt 4. CNN のモデル平均でさらに +10 pt Gunosy inc. 23
  24. 24. 入力データへの加工 1 LSI 後のベクトルは左上から高い数字となっている - 左上の topic のほうがより重要度の高い特徴 - 左上から真ん中によせるような変換をすれば精度は 向上するのではないか ? 精度向上 + 2~3pt Gunosy inc. 24
  25. 25. 入力データへの加工 2 1. LSI 後の次元圧縮されたベクトルの各topic毎に 最大値,最小値,50%点などの統計的な数値を 可視化 2. 各topic毎に,そのtopicの25%点以下の値はノ イズとみなして,除去するような変換をして,精 度向上 精度向上 + 2~3 pt Gunosy inc. 縦軸: 最大値と最小値, 横軸がtopic k 縦軸: 75%, 50%, 25%点, 横軸がtopic k 25
  26. 26. 推定に対する頑健性がほしい モデル平均で精度アップと頑健さをアップさせたい Gunosy inc. CNN 26
  27. 27. モデル平均 Gunosy inc. 特徴マップを 生成 Max Pooling CNN CNN CNN パラメータやフィルタ形状が異なる CNNをいくつか用意します 27 6つに分類結合する 入力データ
  28. 28. CNN for NLP のモデル平均の結果 これで NNモデルの精度に + 20pt となりました Gunosy inc. 28
  29. 29. まとめと今後の課題 1. 畳み込みニューラルネットワークをユーザの行動ログに適用することで,年齢推定 を既存手法よりも高い精度で行えるようになった 2. 精度をより向上させて,記事配信ロジックの改善につなげたい a. ユーザがアプリを利用した時間帯の素性を再度挑戦したい b. ユーザにより最適な情報が届くようにしたい Gunosy inc. 29
  30. 30. ご清聴ありがとうございました !!

×