Diese Präsentation wurde erfolgreich gemeldet.
Die SlideShare-Präsentation wird heruntergeladen. ×

SIGMUS_音楽動画への印象評価データセット構築とその特性の調査

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige

Hier ansehen

1 von 43 Anzeige

SIGMUS_音楽動画への印象評価データセット構築とその特性の調査

Herunterladen, um offline zu lesen

音楽動画の印象評価がどのメディアに影響されるのかを明らかにすべく、音楽動画を3つのメディアタイプに分割したものに対する印象評価データセットを作成し、それに対する分析を行った。

音楽動画の印象評価がどのメディアに影響されるのかを明らかにすべく、音楽動画を3つのメディアタイプに分割したものに対する印象評価データセットを作成し、それに対する分析を行った。

Anzeige
Anzeige

Weitere Verwandte Inhalte

Andere mochten auch (20)

Weitere von nakamura-lab (20)

Anzeige

Aktuellste (20)

SIGMUS_音楽動画への印象評価データセット構築とその特性の調査

  1. 1. 音楽動画への印象評価 データセット構築と その特性の調査 大野 直紀 (明治大学 総合数理学部B3,JST CREST) 中村 聡史(明治大学 総合数理学部,JST CREST) 山本 岳洋(京都大学,JST CREST) 後藤 真孝(産業技術総合研究所,JST CREST)
  2. 2. • 500件×8軸×3メディア(音楽のみ,映像のみ, 音楽動画)の印象評価データセットを構築 • 「音楽のみ」での印象と「映像のみ」での印 象を組み合わせることで「音楽動画」の印象 評価に近づく • メディアごと,部分ごとに伝わりやすい印象 や伝わりにくい印象がある • Valence-Arousalは部分と全体で大きく異なる • かわいいはメディアによらず伝わる 今回の研究での貢献
  3. 3. 音楽動画とは • 音楽と時間的に同期した映像が流れるもの • MV • PV
  4. 4. 背景 • 動画共有サイトで音楽動画の増加率が上昇 • Youtube • ニコニコ動画
  5. 5. 背景 • 音楽動画の検索 • キーワード検索 • タイトル,曲名 「千本桜」「弱虫モンブラン」 • タグ検索 • 使用ソフト 「VOCALOID」「初音ミク」 • 作曲者名の検索 「自然の敵P」「supercell」 キーワード,タグは思いつきづらい
  6. 6. 背景 • 音楽動画からユーザが受ける主観的な印象 に基づく検索 • 「人気のある切ない音楽動画」 • 「元気の出る印象を受ける音楽動画」 • 印象での検索は難しい • キーワード検索 • テキスト情報に印象はあまり書かれていない • タグによる検索 • 印象を含むタグが少ない • ニコニコ動画では5%[山本09] • Last.fmでは14%[Hu07]
  7. 7. 関連研究 • コメントと音響特徴量から音楽動画の印象 を推定[山本13] • 音楽動画全体からの印象推定 • 音楽聴取で受ける感動の評価要因[大出09] • 音楽のみしか考慮がされていない • 音と映像の組み合わせによる主観的印象の 変化[佐藤01] • 同一音楽動画ではない
  8. 8. • 音楽動画全体と音楽動画の部分による印象 の違いは検証されていない • 同一音楽動画内での各メディアの組み合わ せによる印象の違いは検証されていない • 明るい音楽+明るい映像 • 明るい音楽+暗い映像 • 暗い音楽+明るい映像 • 暗い音楽+暗い映像 問題点
  9. 9. 目的 • 音楽,映像の印象評価と音楽動画の印象評価 の関係性を明らかにする • 音楽動画に対する印象に基づく検索の基盤に 音楽動画の印象評価は どのメディア,どの部分から 影響を受けるかを解明!!
  10. 10. アプローチ • 音楽動画のサビ部分をメディアごとに分けた ものに対する大規模印象評価データセットを 構築 • メディア間,部分での類似度の比較 • 作成したデータセットのメディア間での比較 • 過去の研究で作成した,音楽動画全体に対する 大規模印象評価データセットを使用
  11. 11. データセット構築 • 評価対象:ニコニコ動画に投稿された動画のう ち,「VOCALOID」タグが付与されたもの • 2012年8月時点で再生回数の多い動画上位500件 のサビ部分の30秒(ReflaiD[後藤03]を使用) • [山本13]と同じ500件の音楽動画集合を使用 • 評価者(21人)は,音楽動画のサビ部分を3タ イプにメディア分離したデータに対し8つの印 象軸に関して評価を行う • 「サビ音楽動画」 • 「サビ映像のみ」 • 「サビ音楽のみ」
  12. 12. C1(堂々とした) C2(元気が出る) C3(切ない) C4(激しい) C5(滑稽) C6(かわいい) 印象軸[山本13] Valence(快,不快) Arousal(覚醒,鎮静) Russel[Russel80] MIREX
  13. 13. 評価用Webインタフェース • C1~C6は1~5まで Valence-Arousalは -2から+2のそれぞれ 5段階で評価 • 500件×3メディアタ イプの8軸に対する 評価データを収集 • 各動画,各メディアを 最低3人が評価
  14. 14. C1 C2 C3 C4 C5 C6 V A 評価者A 1 2 4 5 1 5 2 -2 評価者B 3 4 5 2 3 5 0 -1 評価者C 1 5 3 1 3 4 1 -2 ベクトル C1 C2 C3 C4 C5 C6 V A 評価者A 1 2 4 5 1 5 2 -2 評価者B 3 4 5 2 3 5 0 -1 評価者C 1 5 3 1 3 4 1 -2 ベクトル 1.7 3.7 4.0 2.7 2.3 4.7 1 -1.7 印象ベクトル • 得られたデータの平均を8次元の印象ベク トルとして表す
  15. 15. C1 C2 C3 C4 C5 C6 V A 音楽動画 1.7 1 2.7 3 4.7 1 -0.7 -0.7 音楽のみ 1.3 1 5 3 1.3 1 0.3 -1.7 映像のみ 3.3 4.3 2.7 2.3 2.3 4.7 -0.3 1.7 C1 C2 C3 C4 C5 C6 V A 音楽動画 -1.3 -2 -0.3 0 1.7 -2 -0.7 -0.7 音楽のみ -1.7 -2 2 0 -1.7 -2 0.3 -1.7 映像のみ 0.3 1.3 -0.3 -0.7 -0.7 1.7 -0.3 1.7 印象ベクトルの補正 • C1~C6と.Valence,Arousalの最小値, 最大値をそろえる
  16. 16. 比較実験 ① 各メディアの印象の類似度の比較 • どのメディア間での印象評価が類似している のかを解明 ② 2軸の組み合わせの類似度の算出 • 各メディア,部分と全体で一貫して伝わる印 象を解明 ③ 印象評価値の分布の表示 • どのメディアが大きい印象を与えるのかを 解明
  17. 17. ① 各メディアの印象の類似度 • 音楽動画に対する8軸の印象ベクトルがどの メディアタイプに類似しているのかを調査 • 「音楽のみ」「映像のみ」のベクトルの平均を とった「音楽映像平均」というベクトルを用意 どのメディア間での印象評価が類似して いるのかを解明
  18. 18. C1 C2 C3 C4 C5 C6 V A 音楽のみ -1.7 -2 2 0 -1.7 -2 -1.3 1.7 映像のみ 0.3 -1.2 -0.2 -0.8 -0.7 1 -1.3 1.7 音楽映像平均 C1 C2 C3 C4 C5 C6 V A 音楽のみ -1.7 -2 2 0 -1.7 -2 -1.3 1.7 映像のみ 0.3 -1.2 -0.2 -0.8 -0.7 1 -1.3 1.7 音楽映像平均 -0.7 -1.6 0.9 -0.4 -1.2 -1 -1.3 1.7 音楽映像平均
  19. 19. 比較手法 • 8軸の印象ベクトルをコサイン類似度で比較 類似度低 類似度高 ベクトル同士の角度の比較 -1で類似度低,+1で類似度高
  20. 20. C1 C2 C3 C4 C5 C6 V A A -1.3 -2 0.3 0 1.7 -2 -0.3 -0.7 B -1.7 -2 2 0 -1.7 -2 0.3 -1.7 C 0.3 -0.7 0 -0.7 0.3 0 0 -0.7 比較手法 • いずれかの軸の値の絶対値が1以上のもの のみを使用 C1 C2 C3 C4 C5 C6 V A A -1.3 -2 0.3 0 1.7 -2 -0.3 -0.7 B -1.7 -2 2 0 -1.7 -2 0.3 -1.7 C 0.3 -0.7 0 -0.7 0.3 0 0 -0.7 この時,Cは比較に使用しない
  21. 21. 結果 比較するメディアタイプ 割合 サビ音楽動画 VS サビ音楽のみ 0.388 サビ音楽動画 VS サビ映像のみ 0.386 サビ音楽のみ VS サビ映像のみ 0.245 サビ音楽動画 VS サビ音楽映像平均 0.496 類似度が0.8を超えた音楽動画の割合
  22. 22. 結果 比較するメディアタイプ 割合 サビ音楽動画 VS サビ音楽のみ 0.388 サビ音楽動画 VS サビ映像のみ 0.386 サビ音楽のみ VS サビ映像のみ 0.245 サビ音楽動画 VS サビ音楽映像平均 0.496 サビ音楽動画 VS フル音楽動画 0.101 類似度が0.8を超えた音楽動画の割合
  23. 23. 結果 • サビ部分での各メディアから受ける印象は 食い違っている • 音楽動画vs音楽映像平均での割合が最高 • 「音楽のみ」のベクトルと「映像のみ」のベ クトルを組み合わせると「音楽動画」のベク トルに近づく • 音楽動画のサビと全体では受ける印象が大 きく異なる
  24. 24. ② 2軸の組み合わせの類似度 • 8次元のベクトルからすべての2軸ペアの 組み合わせについてコサイン類似度で比較 • 2軸に対する評価値の絶対値がどちらも1以上 のもののみを使用 使用 不使用 各メディアで伝わりやすい軸を解明
  25. 25. 比較手法 C1 C2 C3 C4 C5 C6 V A 音楽動画 -1.3 -2 0.3 0 1.7 -2 -0.3 -0.7 音楽のみ -1.7 -2 2 0 -1.7 -2 0.3 -1.7 映像のみ 0.3 1.3 -0.3 -0.7 -0.7 1.7 -0.3 1.7 音楽映像平均 -0.7 -0.4 0.9 -0.4 -1.2 -0.1 -0.3 0
  26. 26. 比較手法 C1 C2 C3 C4 C5 C6 V A 音楽動画 -1.3 -2 0.3 0 1.7 -2 -0.3 -0.7 音楽のみ -1.7 -2 2 0 -1.7 -2 0.3 -1.7 映像のみ 0.3 1.3 -0.3 -0.7 -0.7 1.7 -0.3 1.7 音楽映像平均 -0.7 -0.4 0.9 -0.4 -1.2 -0.1 -0.3 0
  27. 27. 比較手法 C1 C2 C3 C4 C5 C6 V A 音楽動画 -1.3 -2 0.3 0 1.7 -2 -0.3 -0.7 音楽のみ -1.7 -2 2 0 -1.7 -2 0.3 -1.7 映像のみ 0.3 1.3 -0.3 -0.7 -0.7 1.7 -0.3 1.7 音楽映像平均 -0.7 -0.4 0.9 -0.4 -1.2 -0.1 -0.3 0 「音楽動画」のC3の絶対値が1を超えていないため 比較に使用しない
  28. 28. 音楽動画vs音楽のみ 音楽動画vs映像のみ 映像のみvs音楽のみ 音楽動画vs音楽映像平均 C1 C2 C3 C4 C5 C6 V A 平均 C1 - 0.702 0.675 0.650 0.651 0.678 0.691 0.740 0.684 C2 0.702 - 0.768 0.664 0.669 0.771 0.692 0.841 0.730 C3 0.675 0.768 - 0.697 0.633 0.693 0.761 0.861 0.727 C4 0.650 0.664 0.697 - 0.679 0.697 0.843 0.745 0.711 C5 0.651 0.669 0.633 0.679 - 0.658 0.676 0.656 0.660 C6 0.678 0.771 0.693 0.697 0.658 - 0.762 0.748 0.715 V 0.691 0.692 0.761 0.843 0.676 0.762 - 0.700 0.732 A 0.740 0.841 0.861 0.745 0.656 0.748 0.700 - 0.756 C1 C2 C3 C4 C5 C6 V A 平均 C1 - 0.772 0.645 0.602 0.592 0.668 0.540 0.658 0.640 C2 0.772 - 0.707 0.636 0.631 0.797 0.613 0.825 0.711 C3 0.645 0.707 - 0.668 0.696 0.750 0.681 0.870 0.717 C4 0.602 0.636 0.668 - 0.657 0.695 0.753 0.654 0.666 C5 0.592 0.631 0.696 0.657 - 0.709 0.646 0.661 0.656 C6 0.668 0.797 0.750 0.695 0.709 - 0.703 0.808 0.733 V 0.540 0.613 0.681 0.753 0.646 0.703 - 0.650 0.655 A 0.658 0.825 0.870 0.654 0.661 0.808 0.650 - 0.732 C1 C2 C3 C4 C5 C6 V A 平均 C1 - 0.876 0.833 0.778 0.734 0.829 0.733 0.868 0.807 C2 0.876 - 0.835 0.744 0.761 0.916 0.816 0.935 0.840 C3 0.833 0.835 - 0.847 0.774 0.805 0.881 0.940 0.845 C4 0.778 0.744 0.847 - 0.789 0.780 0.895 0.826 0.809 C5 0.734 0.761 0.774 0.789 - 0.790 0.812 0.794 0.770 C6 0.829 0.916 0.805 0.780 0.790 - 0.852 0.901 0.839 V 0.733 0.816 0.881 0.895 0.812 0.852 - 0.859 0.836 A 0.868 0.935 0.940 0.826 0.794 0.901 0.859 - 0.875 C1 C2 C3 C4 C5 C6 V A 平均 C1 - 0.500 0.481 0.450 0.418 0.431 0.394 0.486 0.451 C2 0.500 - 0.585 0.500 0.460 0.579 0.442 0.670 0.534 C3 0.481 0.585 - 0.564 0.531 0.604 0.602 0.731 0.586 C4 0.450 0.500 0.564 - 0.599 0.629 0.694 0.584 0.574 C5 0.418 0.460 0.531 0.599 - 0.599 0.536 0.538 0.526 C6 0.431 0.579 0.604 0.629 0.599 - 0.622 0.659 0.589 V 0.394 0.442 0.602 0.694 0.536 0.622 - 0.495 0.541 A 0.486 0.670 0.731 0.584 0.538 0.659 0.495 - 0.595 比較結果(サビ)
  29. 29. 音楽動画vs音楽のみ 音楽動画vs映像のみ 映像のみvs音楽のみ 音楽動画vs音楽映像平均 C1 C2 C3 C4 C5 C6 V A 平均 C1 - 0.702 0.675 0.650 0.651 0.678 0.691 0.740 0.684 C2 0.702 - 0.768 0.664 0.669 0.771 0.692 0.841 0.730 C3 0.675 0.768 - 0.697 0.633 0.693 0.761 0.861 0.727 C4 0.650 0.664 0.697 - 0.679 0.697 0.843 0.745 0.711 C5 0.651 0.669 0.633 0.679 - 0.658 0.676 0.656 0.660 C6 0.678 0.771 0.693 0.697 0.658 - 0.762 0.748 0.715 V 0.691 0.692 0.761 0.843 0.676 0.762 - 0.700 0.732 A 0.740 0.841 0.861 0.745 0.656 0.748 0.700 - 0.756 C1 C2 C3 C4 C5 C6 V A 平均 C1 - 0.772 0.645 0.602 0.592 0.668 0.540 0.658 0.640 C2 0.772 - 0.707 0.636 0.631 0.797 0.613 0.825 0.711 C3 0.645 0.707 - 0.668 0.696 0.750 0.681 0.870 0.717 C4 0.602 0.636 0.668 - 0.657 0.695 0.753 0.654 0.666 C5 0.592 0.631 0.696 0.657 - 0.709 0.646 0.661 0.656 C6 0.668 0.797 0.750 0.695 0.709 - 0.703 0.808 0.733 V 0.540 0.613 0.681 0.753 0.646 0.703 - 0.650 0.655 A 0.658 0.825 0.870 0.654 0.661 0.808 0.650 - 0.732 C1 C2 C3 C4 C5 C6 V A 平均 C1 - 0.876 0.833 0.778 0.734 0.829 0.733 0.868 0.807 C2 0.876 - 0.835 0.744 0.761 0.916 0.816 0.935 0.840 C3 0.833 0.835 - 0.847 0.774 0.805 0.881 0.940 0.845 C4 0.778 0.744 0.847 - 0.789 0.780 0.895 0.826 0.809 C5 0.734 0.761 0.774 0.789 - 0.790 0.812 0.794 0.770 C6 0.829 0.916 0.805 0.780 0.790 - 0.852 0.901 0.839 V 0.733 0.816 0.881 0.895 0.812 0.852 - 0.859 0.836 A 0.868 0.935 0.940 0.826 0.794 0.901 0.859 - 0.875 C1 C2 C3 C4 C5 C6 V A 平均 C1 - 0.500 0.481 0.450 0.418 0.431 0.394 0.486 0.451 C2 0.500 - 0.585 0.500 0.460 0.579 0.442 0.670 0.534 C3 0.481 0.585 - 0.564 0.531 0.604 0.602 0.731 0.586 C4 0.450 0.500 0.564 - 0.599 0.629 0.694 0.584 0.574 C5 0.418 0.460 0.531 0.599 - 0.599 0.536 0.538 0.526 C6 0.431 0.579 0.604 0.629 0.599 - 0.622 0.659 0.589 V 0.394 0.442 0.602 0.694 0.536 0.622 - 0.495 0.541 A 0.486 0.670 0.731 0.584 0.538 0.659 0.495 - 0.595 比較結果(サビ) 類似度低 類似度高
  30. 30. C1 C2 C3 C4 C5 C6 V A 平均 C1 - 0.702 0.675 0.650 0.651 0.678 0.691 0.740 0.684 C2 0.702 - 0.768 0.664 0.669 0.771 0.692 0.841 0.730 C3 0.675 0.768 - 0.697 0.633 0.693 0.761 0.861 0.727 C4 0.650 0.664 0.697 - 0.679 0.697 0.843 0.745 0.711 C5 0.651 0.669 0.633 0.679 - 0.658 0.676 0.656 0.660 C6 0.678 0.771 0.693 0.697 0.658 - 0.762 0.748 0.715 V 0.691 0.692 0.761 0.843 0.676 0.762 - 0.700 0.732 A 0.740 0.841 0.861 0.745 0.656 0.748 0.700 - 0.756 サビ音楽動画vsサビ音楽のみ
  31. 31. C1 C2 C3 C4 C5 C6 V A 平均 C1 - 0.772 0.645 0.602 0.592 0.668 0.540 0.658 0.640 C2 0.772 - 0.707 0.636 0.631 0.797 0.613 0.825 0.711 C3 0.645 0.707 - 0.668 0.696 0.750 0.681 0.870 0.717 C4 0.602 0.636 0.668 - 0.657 0.695 0.753 0.654 0.666 C5 0.592 0.631 0.696 0.657 - 0.709 0.646 0.661 0.656 C6 0.668 0.797 0.750 0.695 0.709 - 0.703 0.808 0.733 V 0.540 0.613 0.681 0.753 0.646 0.703 - 0.650 0.655 A 0.658 0.825 0.870 0.654 0.661 0.808 0.650 - 0.732 サビ音楽動画vsサビ映像のみ
  32. 32. C1 C2 C3 C4 C5 C6 V A 平均 C1 - 0.876 0.833 0.778 0.734 0.829 0.733 0.868 0.807 C2 0.876 - 0.835 0.744 0.761 0.916 0.816 0.935 0.840 C3 0.833 0.835 - 0.847 0.774 0.805 0.881 0.940 0.845 C4 0.778 0.744 0.847 - 0.789 0.780 0.895 0.826 0.809 C5 0.734 0.761 0.774 0.789 - 0.790 0.812 0.794 0.770 C6 0.829 0.916 0.805 0.780 0.790 - 0.852 0.901 0.839 V 0.733 0.816 0.881 0.895 0.812 0.852 - 0.859 0.836 A 0.868 0.935 0.940 0.826 0.794 0.901 0.859 - 0.875 サビ音楽動画vsサビ音楽映像平均
  33. 33. 結果 • C1(堂々とした),C5(滑稽な)では各メ ディアで違った印象 • C3(切ない),C6(かわいい),Arousal では各メディアで似通った印象 • C6(かわいい)は,映像に影響されやすい
  34. 34. サビ音楽動画vsフル音楽動画 C1 C2 C3 C4 C5 C6 V A 平均 C1 - 0.723 0.674 0.622 0.520 0.668 0.338 0.415 0.566 C2 0.723 - 0.719 0.599 0.606 0.797 0.333 0.388 0.595 C3 0.674 0.719 - 0.599 0.556 0.668 0.379 0.464 0.588 C4 0.622 0.599 0.599 - 0.566 0.606 0.302 0.349 0.522 C5 0.520 0.606 0.556 0.566 - 0.619 0.353 0.361 0.511 C6 0.668 0.797 0.668 0.606 0.619 - 0.392 0.457 0.601 V 0.338 0.333 0.379 0.302 0.353 0.392 - 0.124 0.317 A 0.415 0.388 0.464 0.349 0.361 0.457 0.124 - 0.366
  35. 35. 結果 • Valence-Arousalに関しては,音楽動画の 部分と全体で大きく異なる • C6(かわいい)に関しては,部分によっ て影響されない
  36. 36. • 各軸それぞれの評価値の分布を表示 • 今回は大きく特徴が出たもののみを表示 ③ 評価値の分布 各軸でどのメディアが大きい印象を与えて いるのかを解明
  37. 37. 各メディアでの分布の平均 サビ音楽動画 サビ音楽 サビ映像
  38. 38. C1,C2の評価値の分布 C1(堂々) C2(元気が出る) サビ音楽動画 サビ音楽 サビ映像
  39. 39. C5,Valenceの評価値の分布 C5(滑稽な) Valence サビ音楽動画 サビ音楽 サビ映像
  40. 40. 結果 • C1,C2は映像でマイナス,音楽でプラスの 印象 • C5,Valenceではどのメディアでも強い印象 を与えるのが困難
  41. 41. 考察 • C3(切ない)C6(かわいい)Arousalでは メディア間で評価が似通う • 各メディアでの影響が少なく,音楽動画全体で 一貫して伝わりやすい • C1(堂々とした)C5(滑稽な)ではメディ ア間での評価が異なる • 評価値の絶対値が1に満たないものが多数 • 音楽動画からC1,C5は伝わりづらい可能性 • Valence-Arousalは部分で変化していく軸 • 音楽動画全体に対する印象評価には適さない
  42. 42. 考察 • 音楽動画のベクトルは「音楽」「映像」の ベクトルによって表現できる • 音響分析で音楽の印象推定 • 映像分析で映像の印象推定 音楽動画の印象推定が可能に
  43. 43. まとめと今後の展開 • 500件×8軸×3メディアの印象評価データ セットを構築し,分析を実施 • 音楽のみの印象評価と映像のみの印象評価を組 み合わせると音楽動画の印象評価に近づく • 音楽動画の部分と全体では,受ける印象に大き く差が出る [今後の展開] • より多くの音楽動画に対して調査 • 音楽の印象推定,映像の印象推定の組み合わ せによる音楽動画の印象推定を実現

×