Diese Präsentation wurde erfolgreich gemeldet.
Die SlideShare-Präsentation wird heruntergeladen. ×

ニコニコ動画における関連動画情報を用いたカテゴリ特徴の把握

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Wird geladen in …3
×

Hier ansehen

1 von 57 Anzeige

ニコニコ動画における関連動画情報を用いたカテゴリ特徴の把握

Herunterladen, um offline zu lesen

3月26日のニコニコ学会データ研究会で発表した資料です。

3月26日のニコニコ学会データ研究会で発表した資料です。

Anzeige
Anzeige

Weitere Verwandte Inhalte

Ähnlich wie ニコニコ動画における関連動画情報を用いたカテゴリ特徴の把握 (20)

Aktuellste (20)

Anzeige

ニコニコ動画における関連動画情報を用いたカテゴリ特徴の把握

  1. 1. ニコニコ動画における 関連動画情報を用いた カテゴリ特徴の把握 Yusuke Fukasawa(@fukkaa1225) The University of Tokyo Graduate School System Innovation 1
  2. 2. Agenda 2016/3/26 2  1. 自己紹介  2. 本日のテーマ  3. 手法やデータ元について  4. カテゴリの中心性分析  5. カテゴリ遷移確率分析  6. クラスター分析  7. おわりに
  3. 3. Agenda 2016/3/26 3  1. 自己紹介  2. 本日のテーマ  3. 手法やデータ元について  4. カテゴリの中心性分析  5. カテゴリ遷移確率分析  6. クラスター分析  7. おわりに
  4. 4. あなたはだれですか? • 深澤祐援(ふかさわゆうすけ)と申します • @fukkaa1225 • 普段はマルチエージェントシミュレーショ ン・機械学習などの分野での研究をしており ます • 修士一年なので就活中です 自己紹介
  5. 5. なんでここにいるんですか? • 以前”マリオメーカー問題”の可視化及び分析 をまとめたスライドを公開した際に、幸運に もありらいおんさんから反応を頂き、お話す ることが出来ました • その後、今度は伊予柑さんから「今回やって みない?」ということで今に至ります • みなさまどうぞよろしくお願いいたします 自己紹介 お二方に感謝です!
  6. 6. “マリオメーカー問題”の分析 自己紹介
  7. 7. Agenda 2016/3/26 7  1. 自己紹介  2. 本日のテーマ  3. 手法やデータ元について  4. カテゴリの中心性分析  5. カテゴリ遷移確率分析  6. クラスター分析  7. おわりに
  8. 8. 突然ですが みなさん 本日のテーマ
  9. 9. 突然ですが ニコニコ動画 使ってますか? 本日のテーマ
  10. 10. 私の回遊行動ネットワーク 本日のテーマ • ある日の回遊履歴をネットワークで可視化し ました
  11. 11. 全ユーザの行動を知る という野望 • ユーザー全体の行動がどうなっているのかも 知りたい • 今回はまずカテゴリごとの特徴を捉える • カテゴリ特徴からユーザーの行動傾向の分析 が出来ればいいなと 本日のテーマ
  12. 12. 本当はユーザ行動モデルの 推定までしたかったのですが 今回は その足掛かり ということで 本日のテーマ
  13. 13. Agenda 2016/3/26 13  1. 自己紹介  2. 本日のテーマ  3. 手法やデータ元について  4. カテゴリの中心性分析  5. カテゴリ遷移確率分析  6. クラスター分析  7. おわりに
  14. 14. どういうデータを使うのか • 関連動画情報を使います • API(getrelation)で取得しました 手法やデータ元について これ
  15. 15. データ取得手順 Niconicogetrelation というAPIで取得 手法やデータ元について カテゴリタグで動画を100件取得 (ゲーム,VOCALOIDなど28種) 取得した各カテゴリ100件を シード動画とし その関連動画を取得する シード動画と関連動画を ネットワークとして結ぶ スナップチャット 検索APIで取得 (毎朝5時更新) イメージ図で 説明します 計測期間:2016/02/21~2016/03/20
  16. 16. データ取得手順 Niconicogetrelation というAPIで取得 手法やデータ元について カテゴリタグで動画を100件取得 (ゲーム,VOCALOIDなど28種) 取得した各カテゴリ100件を シード動画とし その関連動画を取得する シード動画と関連動画を ネットワークとして結ぶ スナップチャット 検索APIで取得 イメージ図で 説明します 計測期間:2016/02/21~2016/03/20
  17. 17. データ取得手順 Niconicogetrelation というAPIで取得 手法やデータ元について カテゴリタグで動画を100件取得 (ゲーム,VOCALOIDなど28種) 取得した各カテゴリ100件を シード動画とし その関連動画を取得する シード動画と関連動画を ネットワークとして結ぶ スナップチャット 検索APIで取得 イメージ図で 説明します 計測期間:2016/02/21~2016/03/20
  18. 18. ネットワークのイメージ図 手法やデータ元について シード動画 関連動画 シード動画同士では 一方の関連動画に なっている場合のみ リンクが張られます かなり全体として連 結成分のないネット ワークになりますが 上手く繋がることも あります
  19. 19. 実際にできたネットワーク 手法やデータ元について ヘアボール形状と呼ば れるものになってしま います
  20. 20. データ分析の概観 手法やデータ元について 関連動画ネットワークの 各ノードの中心性を計算 する 中心性が高いカテゴリ? 中心性が低いカテゴリ? カテゴリの 中心性分析 カテゴリ間の 遷移確率推定 あるカテゴリの動画を見 たユーザが次にどのカテ ゴリの動画を見るのか ループ構造が強いカテゴ リ、他と補完しあうカテ ゴリ? カテゴリの クラスター分析
  21. 21. データ分析の概観 手法やデータ元について カテゴリの 中心性分析 カテゴリ間の 遷移確率推定 関連動画ネットワークの 各ノードの中心性を計算 する 中心性が高いカテゴリ? 中心性が低いカテゴリ?
  22. 22. データ分析の概観 手法やデータ元について カテゴリの 中心性分析 カテゴリ間の 遷移確率推定 あるカテゴリの動画を見 たユーザが次にどのカテ ゴリの動画を見るのか ループ構造が強いカテゴ リ、他と補完しあうカテ ゴリ?
  23. 23. データ分析の概観 手法やデータ元について カテゴリの 中心性分析 カテゴリ間の 遷移確率推定 カテゴリの クラスター分析 カテゴリ規模に関する情報と中心性 や遷移確率、というデータを使って カテゴリのクラスター分析をする
  24. 24. Agenda 2016/3/26 24  1. 自己紹介  2. 本日のテーマ  3. 手法やデータ元について  4. カテゴリの中心性分析  5. カテゴリ遷移確率分析  6. クラスター分析  7. おわりに
  25. 25. 中心性指標 PageRank • 今回はPageRankで見ていきます • PageRankについて • Googleの検索で用いられているwebページの重要 度を測るアルゴリズム • 平たく言って「値が高ければ高いほどその ノードは重要である」くらいの意味で使って います カテゴリの中心性分析
  26. 26. 平均PageRankの比較 カテゴリの中心性分析
  27. 27. 平均PageRankの高いカテゴリ カテゴリの中心性分析
  28. 28. 平均PageRankの低いカテゴリ カテゴリの中心性分析
  29. 29. カテゴリ規模と中心性 カテゴリの中心性分析 PageRankが 低い5カテゴリ PageRankが 高い5カテゴリ  ニコニコ動画講座  ニコニコインディーズ  ニコニコ手芸部  旅行  自然  ゲーム  音楽  VOCALOID  アニメ  エンターテイメント
  30. 30. カテゴリ規模と中心性 カテゴリの中心性分析 PageRankが 低い5カテゴリ PageRankが 高い5カテゴリ  ニコニコ動画講座  ニコニコインディーズ  ニコニコ手芸部  旅行  自然  ゲーム  音楽  VOCALOID  アニメ  エンターテイメント 規模が大きいカテゴリほど中心性は低く、 規模が小さいカテゴリの方が中心性は高いか?
  31. 31. 散布図-コメント数と中心性 コメント数 中央値 PageRank カテゴリの中心性分析 相関係数 -0.16
  32. 32. 散布図-マイリスト数と中心性 カテゴリの中心性分析 マイリスト数 中央値 PageRank 相関係数 -0.05
  33. 33. 散布図-再生数と中心性 カテゴリの中心性分析 再生数 中央値 PageRank 相関係数 -0.15
  34. 34. PageRankとカテゴリ規模は 緩やかな負の相関を持つ カテゴリの中心性分析 PageRank コメント数 マイリスト数 再生数 -0.16 -0.05 -0.15  関連動画ネットワー クにおける”重要 性”(広がりやすさ)は、 そのカテゴリが小さ ければ小さいほど高 くなる  と解釈できるかもし れない
  35. 35. Agenda 2016/3/26 35  1. 自己紹介  2. 本日のテーマ  3. 手法やデータ元について  4. カテゴリの中心性分析  5. カテゴリ遷移確率分析  6. クラスター分析  7. おわりに
  36. 36. カテゴリ遷移確率? シード動画からリンクを 張っているノードのカテゴ リ比率のこと 左図だと  ゲーム→ゲーム…2/3  ゲーム→アニメ…1/3  VOCALOID→VOCALOID…1/2  VOCALOID→演奏してみた…1/2 “ゲーム”カテゴリの動画を 見た人は、2/3の確率で次 も”ゲーム”の動画を見ると 解釈する カテゴリ遷移確率分析 ゲーム VOCALOI D ゲーム ゲーム アニメ VOCALOID 演奏してみた
  37. 37. 具体例1:”ゲーム”(3月20日) カテゴリ遷移確率分析 • 言わずと知れた巨大カテゴリ • 自己回帰率は高め
  38. 38. 具体例2:”ニコニコ動画講座” (3月20日) カテゴリ遷移確率分析 • 人にノウハウを教える動画な ど、小規模なカテゴリ • 広く浅く分散している 値が小さい
  39. 39. カテゴリ規模と再帰率 カテゴリ遷移確率分析 平均再帰率が 高い5カテゴリ 平均再帰率が 低い5カテゴリ  その他(0.14)  自然(0.16)  歴史(0.17)  ニコニコ動画講座(0.18)  日記(0.18)  踊ってみた(0.75)  政治(0.72)  R-18(0.67)  料理(0.66)  VOCALOID(0.66)
  40. 40. カテゴリ規模と再帰率 カテゴリ遷移確率分析 平均再帰率が 高い5カテゴリ 小規模カテゴリの再帰率は低いが 再帰率が高いカテゴリは種類が様々  その他(0.14)  自然(0.16)  歴史(0.17)  ニコニコ動画講座(0.18)  日記(0.18)  踊ってみた(0.75)  政治(0.72)  R-18(0.67)  料理(0.66)  VOCALOID(0.66) 平均再帰率が 低い5カテゴリ
  41. 41. 散布図-コメント数と再帰率 カテゴリ遷移確率分析 自己再帰率 コメント数 中央値 相関係数 0.22
  42. 42. 散布図-マイリスト数と再帰率 カテゴリ遷移確率分析 自己再帰率 マイリスト数 中央値 相関係数 0.29
  43. 43. 散布図-再生数と再帰率 カテゴリ遷移確率分析 自己再帰率 再生数 中央値 相関係数 0.30
  44. 44. 再帰率とカテゴリ規模は 正の相関を持つ カテゴリの中心性分析 再帰率 コメント数 マイリスト数 再生数 0.22 0.29 0.30  カテゴリ規模が大き ければ大きいほど、 そのカテゴリ内で回 遊行動を終了する可 能性が高い  が、小さくても再帰 率が高いカテゴリも あるようだ
  45. 45. Agenda 2016/3/26 45  1. 自己紹介  2. 本日のテーマ  3. 手法やデータ元について  4. カテゴリの中心性分析  5. カテゴリ遷移確率分析  6. クラスター分析  7. おわりに
  46. 46. 最後にクラスタリングします • これまでの情報を用いてカテゴリをクラスタ リングしていきます • 必ずしも再帰率・PageRankとカテゴリ性質が リンクしないケースもあるのではないかとい う予想 • データ数は少なめなので、階層クラスタリン グで可視化します クラスター分析
  47. 47. クラスター分析の可視化 クラスター分析 クラスター1 クラスター2 クラスター3 クラスター4
  48. 48. ちなみに クラスター分析  なぜかR-18のみどの クラスターにも入り ませんでした  以降は無視した分析 をしています
  49. 49. PageRankと再帰率 クラスター分析 クラスター1 クラスター2 クラスター3 クラスター4 0.000033 0.000034 0.000035 0.000036 0.000037 0.000038 0.000039 0.00004 0.000041 0.000042 0 0.1 0.2 0.3 0.4 0.5 0.6 再帰率 PageRank
  50. 50. 0.00% 0.20% 0.40% 0.60% 0.80% 1.00% 1.20% 再生数に対するマイリスト率 クラスター分析 クラスター1 クラスター2 クラスター3 クラスター4
  51. 51. 0.00% 0.50% 1.00% 1.50% 2.00% 2.50% 3.00% 再生数に対するコメント率 クラスター分析 クラスター1 クラスター2 クラスター3 クラスター4
  52. 52. まとめ PageRankと再帰率 クラスター分析 クラスター1 (エンターテイメント) クラスター2 (東方/アニメ) クラスター3 (ゲーム/踊ってみた) クラスター4 (自然/動物) PageRankが低く 再帰率が高い PageRankが高く 再帰率が低い
  53. 53. まとめ コメント・マイリスト率 クラスター分析 コメント率高い マイリスト率高い コメント率低い マイリスト率低い クラスター2 (東方/アニメ) クラスター3 (ゲーム/踊ってみた) クラスター1 (エンターテイメント) クラスター4 (自然/動物)
  54. 54. まとめ コメント・マイリスト率 クラスター分析 コメント率高い マイリスト率高い コメント率低い マイリスト率低い クラスター2 (東方/アニメ) クラスター3 (ゲーム/踊ってみた) クラスター1 (エンターテイメント) クラスター4 (自然/動物) PageRank・再帰率の割に コメント・マイリスト率が低い PageRank・再帰率の割に コメント率が高い
  55. 55. Agenda 2016/3/26 55  1. 自己紹介  2. 本日のテーマ  3. 手法やデータ元について  4. カテゴリごとの特徴  5. カテゴリ遷移確率分析  6. クラスター分析  7. おわりに
  56. 56. カテゴリ特徴の把握から ユーザ行動モデルの推定へ • 今回はこうしてカテゴリの特徴からユーザの 行動を推定するだけでした(まだ詰め切れてい ない部分もありますが) • 今後は体系的に説明できるモデルをつくるな り、シミュレーションするなりで広げていけ るかなと • Youtubeなど他の動画サイトでも同じようなこ とが出来るならば比較したい おわりに
  57. 57. 長々失礼いたしました おわりに ご清聴頂き ありがとうございました

×