Diese Präsentation wurde erfolgreich gemeldet.
Die SlideShare-Präsentation wird heruntergeladen. ×

ソーシャルコメントからの音楽動画印象推定に関する考察

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige

Hier ansehen

1 von 29 Anzeige

ソーシャルコメントからの音楽動画印象推定に関する考察

Herunterladen, um offline zu lesen

SIGGN96 で発表した「ソーシャルコメントからの音楽動画印象推定に関する考察」という研究の発表スライドです.

SIGGN96 で発表した「ソーシャルコメントからの音楽動画印象推定に関する考察」という研究の発表スライドです.

Anzeige
Anzeige

Weitere Verwandte Inhalte

Andere mochten auch (20)

Weitere von nakamura-lab (20)

Anzeige

Aktuellste (20)

ソーシャルコメントからの音楽動画印象推定に関する考察

  1. 1. ソーシャルコメントからの 音楽動画印象推定に関する 考察 土屋 駿貴 (明治大学 総合数理学部B3,JST CREST) 中村 聡史(明治大学 総合数理学部,JST CREST) 山本 岳洋(京都大学,JST CREST)
  2. 2. •音楽動画に付与されたコメントからその 動画の印象をSVMで推定する •コメントによる推定精度の高さ • 音楽動画 > 映像のみ > 音楽のみ • かわいい > その他 > 堂々,滑稽 コメントから印象推定可能? かわえええ 88888 いやされる すごい!!! かわいい かわいい 形容詞 C1 C2 C3 C4 C5 C6 V A 平 音楽動画 0.733 0.869 0.710 0.750 0.667 0.838 0.650 0.842 0.757 音楽のみ 0.667 0.635 0.595 0.667 0.581 0.775 0.706 0.733 0.670 映像のみ 0.714 0.736 0.733 0.759 0.536 0.829 0.603 0.850 0.720 平均 0.705 0.747 0.679 0.725 0.595 0.814 0.653 0.809 0.716 C1(堂々とした) C2(元気が出る) C3(切ない) C4(激しい) C5(滑稽) C6(かわいい) Valence(快,不快) Arousal(覚醒,鎮静)
  3. 3. 背景(音楽動画数の増加) • 動画共有サイトで音楽動画数が増え続けている • YouTube • ニコニコ動画
  4. 4. 背景(検索方法) • 音楽動画の検索 • キーワード検索 • タイトル,曲名 「千本桜」「弱虫モンブラン」 • タグ検索 • 使用ソフト 「VOCALOID」「初音ミク」 • 作曲者名の検索 「自然の敵P」「supercell」 キーワード,タグは思いつきづらい
  5. 5. • 音楽動画からユーザが受ける主観的な印 象に基づく検索 • 「元気の出る音楽動画」 • 「かわいい音楽動画」 背景(印象検索)
  6. 6. 印象検索のアプローチ • 印象を人手で与える • 人手ですべての動画に与えるのは困難 • タイトル・タグから推定する • 印象タグニコニコ動画では5%[山本2009], Last.fmでは14%[Hu2007] • 音響特徴量から推定する • 歌詞と音響信号から特徴量を抽出し楽曲の印 象推定 [西川2011] • 映像特徴量から推定する • コメントから推定する
  7. 7. • 視聴者のソーシャルコメントに基づき,動 画の検索および推薦する[佃2011] • 楽曲全体に対する評価となっている • コメントが音楽動画,音楽,映像のどのメ ディアに対するものなのか考慮されていない 関連研究 • 視聴者のソーシャルコメントに基づき,動 画の検索および推薦する[佃2011] • 楽曲全体に対する評価となっている • コメントが音楽動画,音楽,映像のどのメ ディアに対するものなのか考慮されていない
  8. 8. ソーシャルコメント • 動画を視聴したユーザが感じた印象をリアルタイ ムに文字にして表現している
  9. 9. ソーシャルコメント •コメントはどのメディアタイプに対す るものであるのかあきらかではない かっこいい すごい!! かわいい 音楽+映像 音楽 映像 コメント メディアタイプ
  10. 10. • 音楽動画からユーザが受ける印象は部分と 全体で異なる[大野2015] • 本研究ではサビ部分に着目 • 全体の印象は、部分ごとの印象から推定する必 要がある 印象の差異
  11. 11. 目的 コメントのみからの印象推定はどの メディアタイプでどういった印象のとき に可能かを検討する
  12. 12. 印象評価データセット[大野2015] • 評価対象:ニコニコ動画に投稿された動画のう ち,「VOCALOID」タグが付与されたもの • 500件の音楽動画のサビ部分の30秒(ReflaiD[後藤 2003]を使用) • 音楽動画のサビ部分を3タイプにメディア分離 したデータに対し8つの印象軸に関して評価 1. 「サビ音楽動画」 2. 「サビ音楽のみ」 3. 「サビ映像のみ」 • 3人の評価者によって各メディア・印象タイプ を評価
  13. 13. C1(堂々とした) C2(元気が出る) C3(切ない) C4(激しい) C5(滑稽) C6(かわいい) 印象軸[山本13] Valence(快,不快) Arousal(覚醒,鎮静) Russel[Russel1980] MIREX
  14. 14. • 3人分の印象評価値を平均をそれぞれのメ ディアタイプ,印象タイプの評価値とする 1~5 -2~2 C1 C2 C3 C4 C5 C6 V A 評価者A 1 2 4 5 1 5 2 -2 評価者B 3 4 5 2 3 5 0 -1 評価者C 1 5 3 1 3 4 1 -2 評価値 印象評価値 -2~2 -2~2 C1 C2 C3 C4 C5 C6 V A 評価者A -2 -1 1 2 -2 2 2 -2 評価者B 0 1 2 -1 0 2 0 -1 評価者C -2 2 0 -2 0 1 1 -2 評価値 -2~2 -2~2 C1 C2 C3 C4 C5 C6 V A 評価者A -2 -1 1 2 -2 2 2 -2 評価者B 0 1 2 -1 0 2 0 -1 評価者C -2 2 0 -2 0 1 1 -2 評価値 -1.3 0.7 1 -0.3 -0.7 1.7 1 -1.7
  15. 15. -2~2 -2~2 C1 C2 C3 C4 C5 C6 V A 音楽動画 -1.3 -2 -0.3 0 1.7 -2 -0.7 -0.7 音楽のみ -1.7 -2 2 0 -1.7 -2 0.3 -1.7 映像のみ 0.3 1.3 -0.3 -0.7 -0.7 1.7 -0.3 1.7 印象評価値
  16. 16. コメント数の変化 コメントの収集と抽出 • ニコニコ動画APIを用いて,印象評価データセッ トに該当する音楽動画に対するすべてのコメン ト(860,455個)を収集 • 音楽動画の印象評価値が付いているサビ区間内 に投稿されたコメント(132,036個)を抽出 Aメロ サビCメロBメロ サビ
  17. 17. • MeCabを用いて形態素解析することで単 語に分割し、出現頻度を数え、単語ベクト ルとする 「ミクかわいい」「初見」「ミク良い」 all手法 adj手法 音楽動画に対する単語ベクトルの生成 ミク かわいい 初見 良い 動画A 2 1 1 1 かわいい 良い 動画A 1 1 「ミク / かわいい」「初見」「ミク / 良い」
  18. 18. 評価実験 • (3メディアタイプ)×(8印象タイプ) の24パターンについて,評価値をもとに動 画集合を構築 動画集合 低評価群 高評価群 (負例) (正例) 1以上-1以下
  19. 19. 評価実験 • SVMを用いて交差検定を行い,正例の適合 率を計算 • 得られた動画集合を5分割し,4つを訓練デー タ,1つをテストデータとして交差検定を実施 (5-foldクロスバリデーション) • 求める適合率はテストデータ内で正例と判 定されたものに正例が含まれる割合 正例(正解) 負例(正解) 正例(テストデータ) ○ × 負例(テストデータ) × ○ 正例(正解) 負例(正解) 正例(テストデータ) ○ × 負例(テストデータ) × ○
  20. 20. all手法の適合率 C1 C2 C3 C4 C5 C6 V A 音楽動画 0.645 0.769 0.560 0.568 0.553 0.734 0.794 0.837 音楽のみ 0.790 0.741 0.283 0.600 0.425 0.569 0.821 0.886 映像のみ 0.263 0.471 0.669 0.360 0.594 0.667 0.529 0.713
  21. 21. 高評価群 C1 C2 C3 C4 C5 C6 V A 音楽動画 76 105 87 54 83 104 101 150 音楽のみ 133 127 46 69 49 73 124 178 映像のみ 21 50 142 49 81 78 57 111 データ数に対する基礎検討 低評価群 C1 C2 C3 C4 C5 C6 V A 音楽動画 105 169 191 209 178 215 62 94 音楽のみ 65 92 232 195 180 209 61 43 映像のみ 252 272 165 247 207 234 96 155
  22. 22. • データ数に偏りがあるため,不均衡データ問題 が起こっている可能性がある • 多くのデータが負例として判定されている データ数に対する基礎検討 負例 正例
  23. 23. • 正例,負例の動画数を同一にするためアン ダーサンプリングを行った データ数に対する基礎検討 高評価群 C1 C2 C3 C4 C5 C6 V A 音楽動画 76 105 87 54 83 104 101 150 音楽のみ 133 127 46 69 49 73 124 178 映像のみ 21 50 142 49 81 78 57 111 高評価群 C1 C2 C3 C4 C5 C6 V A 音楽動画 76 105 87 54 83 104 62 94 音楽のみ 65 92 46 69 49 73 61 43 映像のみ 21 50 142 49 81 78 57 111
  24. 24. 手法の比較 all手法 C1 C2 C3 C4 C5 C6 V A 平 音楽動画 0.720 0.830 0.713 0.765 0.718 0.758 0.783 0.777 0.758 音楽のみ 0.742 0.671 0.612 0.661 0.600 0.712 0.704 0.744 0.681 映像のみ 0.611 0.680 0.752 0.714 0.603 0.797 0.660 0.743 0.695 平均 0.691 0.727 0.692 0.713 0.640 0.756 0.716 0.755 0.711 adj手法 C1 C2 C3 C4 C5 C6 V A 平 音楽動画 0.733 0.869 0.710 0.750 0.667 0.838 0.650 0.842 0.757 音楽のみ 0.667 0.635 0.595 0.667 0.581 0.775 0.706 0.733 0.670 映像のみ 0.714 0.736 0.733 0.759 0.536 0.829 0.603 0.850 0.720 平均 0.705 0.747 0.679 0.725 0.595 0.814 0.653 0.809 0.716
  25. 25. 結果 • メディアタイプごとの適合率の平均は,音 楽動画が高い • C6,Arousalに関してはadj手法のほうが 特に適合率が高くなる • C3,C5,Valenceに関してはall手法のほ うが適合率が高くなる
  26. 26. 考察 • コメントがどのメディアに対してのもので あるかは印象によって異なる • C2(元気が出る)C5(滑稽)は音楽動画 • C3(切ない)は映像 • C6,Arousalはadj手法の方が適合率が高い • 形容詞で印象を表現することが多い • C6(かわいい)➡ 「かわいい」 • Arousal ➡ 「かっこいい」
  27. 27. 考察 • C6(かわいい)に対してコメントからの印 象推定は非常に有効である
  28. 28. 考察 • C1(堂々)C3(切ない)C5(滑稽)では 精度が低い • これらの印象を直接表すような単語が使われる 機会が少ない • 今回用いなかった別の品詞を利用しベクトルを 生成することで結果の検証
  29. 29. まとめ • ニコニコ動画のコメントから音楽動画の印象 推定を行い,その精度について分析を実施 • 各メディア間においては,音楽動画の推定精度 が高い • 各印象ごとに推定精度の差がある • C6(かわいい)に関しては印象推定が有効で ある可能性がある [今後の展開] • 単語ベクトルの取り方を変える • より大規模なデータセットを用いる • コメント数の変化による結果の違い

×