歌声分析のエンタテイメント応用

歌声分析のエンタテイメント応用
音楽検索からカラオケまで
伊藤彰則
東北大学大学院工学研究科
aito@spcom.ecei.tohoku.ac.jp
@akinori_ito
1

はじめに
• 歌声分析の歴史は結構古い
– Wolf+, “Quantitative Study of Singing
Voice,” JASA, 1935
声の高さとパワーの標準
カーブ（音声は母音「あ」）．
広い範囲で大きい声が出せ
れば，それは良い歌唱者だ
ろうという考え方による分析．
標準カーブに対して，初心
者と経験者の違いなどが考
察されている
2

誰の歌声を分析するのか
• プロ（あるいはプロを目指す学生）の
クラシック歌唱が多かった
– Wolf+, “Quantitative Study of Singing Voice,”
JASA, 1935（前述）
バリトン歌手と音大生
– Sungberg, “The Acoustics of the Singing
Voice”, Scientific American, 1977
ソプラノ歌手
– Omori+, “Singing power ratio: Quantitative
evaluation of singing voice quality”, J of
Voice, 1996
プロ歌手＋セミプロ歌手
3

誰の歌声を分析するのか
• プロでなくても歌うことができる
– コミュニケーションの手段として
• 歌声で何かを伝える（メロディ情報など）
– 楽しみのために
• 誰でも歌って楽しむことができる
• カラオケなど
4

歌声分析の応用の広がり
伝える楽しむ
素人的
プロ的
歌声・
ハミング検索
カラオケ採点
歌唱練習補助
歌声加工
ピッチ補正
モーフィング
歌手分類
MIR応用
5

本日のお題
• 歌声・ハミング検索
– 声でメロディ・歌詞を入力
• メロディマッチングの正確性・高速性
• 歌詞をどう使うか
• カラオケ採点（歌唱力評価）
– カラオケ採点にまつわる技術
– 歌のうまさと「熱唱度」
6

ハミング検索
• ハミング（スタッカート歌唱）や歌詞付
きの歌唱をキーとした音楽検索
– Query by Humming (QbH)
– Query by Singing/Humming (QbSH)
• 実用化も (Midomi等)
1 xxxxxxx
2 yyyyyyy
3 zzzzzzzz
7

タタタタタ
ハミング入力音楽検索システム
• 入力音声から一音一音の高さ・長さを抽出し検索
8
区間検出
(パワーの変化から検出)
特徴量抽出
(音高・音長)
検索
(類似度or距離計算)
ハミング入力
(スタッカート歌唱)
メロディ相対化
検索結果
データベース

ハミング入力音楽検索システム
• DPマッチングを用いたシステム
– Ghiasら(1995)，園田ら(1998)
• Hidden Markov Model（HMM）を用
いたシステム
– Meekら(2001）
• 特徴量は【相対音高】と【相対音長】
• 楽曲をフレーズ単位に分割し，それぞれのフレー
ズ毎でHMMモデルを作成
• 入力から特徴量を抽出し，尤も一致するHMMモデ
ルを選択
9

QbSHの問題点と解決法
（自分の研究を中心に）
• 精度を上げる
– F0抽出の精度に限界
• 複数のF0候補を使う
• 連続する音符のF0の比を直接利用
• データベースをどう用意するか
– MIDI
– 音響信号から直接データベースを作成
– ユーザによるハミングをデータベースとして利用
• 歌詞の利用
– 歌詞のある歌声をキーとして利用
• 計算量
10

３次元DPマッチングによる高精度化
• ハミング入力の時間軸，データベースの時間軸，
F0候補の３次元空間上で最適な候補をDPにより
連結
11
時間
時間
候補点軸
個数
各候補点は信頼度を持つ
データベース軸
Heo+, IEEE Trans. Multimedia, 2006

音の絶対的な高さによらない特徴量
12
相互相関関数
対数周波数領域
パワースペクトル
対数周波数領域
パワースペクトル
主成分分析による次元圧縮
【音程特徴ベクトル】
ピーク音程の検出
Suzuki+, J. Information Processing, 2009.

音響信号からのデータベース構築
• 複数F0候補データベースの構築
– 音響信号の周波数解析
– F0存在確率密度関数の導出
• pF0
t(F):時刻tにおいて，周波数FにF0が
存在する確率
• PreFEst-core(Goto，1999)を用いて算出
– 混合音からメロディーラインのF0推定
– 高調波構造をモデル化し学習
– F0存在確率密度関数からF0候補の選択
• pF0
t(F)から数個のピークを取り出し，F0候補
とする
• 各フレームごとのF0候補を時間軸上で並べる
13
time
log frequency
音楽音響信号
スペクトログ
ラム
F0存在
周波数解析
確率密度関数算出
候補選択
確率密度関数
複数F0候補
データベー
ス
Ito+, Proc. ICALIP, 2010.

14
歌詞のあるクエリからの検索
• 有限状態文法(FSA)を用いた歌詞認識
– 楽曲検索時に歌われるのはデータベースに存在す
る曲の歌詞
⇒ 従来法では正しい歌詞以外の単語列も出力
正しい歌詞しか出力しない有限状態文法を使用
• 歌声適応による音響モデルの改善
– 読み上げ音声と歌声では音響的特徴が異なる
話者適応手法により歌声モデルを作成
Suzuki+, EURASIP J. on Advances in Signal Processing, 2007

認識に用いる有限状態文法（FSA)
<s> </s>
…
…
…
は
る
がきたた
は
な
がさ
く
は
な
さ
く
ど
こ
か
では
る
がだ
す
…
曲Ａ
1番
曲Ａ
2番
曲M
N番
<s>:開始記号
</s>:終了記号
認識結果：はるがきた ⇒ 曲A
15

カラオケにおける歌唱の評価
• 一般には「歌のうまさ」を評価
– カラオケの歴史と同程度に古い
– さまざまな技術が用いられている
– カラオケの技術発展と同調
78点
16

カラオケの歴史
年代特徴
1970 カラオケ誕生，8トラックテープ
1980 カラオケ採点誕生，CD, LD, VHDカラオケ
1990 大容量CD/VCD/LDオートチェンジャー
→通信カラオケの誕生と台頭
2000 着メロ・音楽配信連携，ゲーム機・動画サイト連携
2010 動画配信，スマホ連携
（一社）日本カラオケ事業者協会「カラオケ歴史年表」より
17

カラオケ採点の研究
• カラオケ採点関係の技術のほとんどは特許
• 方式の変遷
– 標準歌唱との比較→ガイドメロディとの比較
• 歌唱テクニック採点の導入
– ビブラート，こぶし等（2008～2009）
• 学術的研究
– 精密な採点アルゴリズム（竹内＋，2010）
– リファレンスを使わない歌唱力評価（中野＋，
2007）
18

カラオケ採点の特許（？）
• 日立製作所「音程練習機」，1981
入力１
入力２
スイープ音
発生器
差分周波数
信号生成
特許公開公報特開昭56-150783より19

カラオケ採点の特許
• シャープ株式会社
「歌唱能力などの評価装
置」 1986
– 各オクターブでの特定の音名
の音を通過させる櫛形フィル
タを12個用意
– 対応するフィルタの出力電圧
が一致するかを判定
特許公報特公昭61-26066より 20

カラオケ採点は何を目指すのか
• 娯楽なので厳密な採点はあまり意味がない
– 曲の後半の採点を重視（ヤマハ，1997）
– 曲の難易度に合わせて採点結果を調整
（ブラザー，1998）
– 1番と2番で一貫して標準メロディと違う歌い方
をした場合はそれを評価（第一興商，1999）
• ソーシャル採点
– 歌の後の拍手やアンコールの掛け声を検出して採
点（桑原，1995）
– 歌を聞いた人が点数を入力して，それを集計する
（エクシング他，1997）
21

• ゲーム性の導入とか？
– スコアに合わせた占いを表示
（ビッグサンズ，1992）
– 採点をすごろく型にする
（日本ビデオセンター，1992）
– 対戦形式の採点（エクシング他，1995）
– スコアが低かったら途中で曲を停止
（ソニー，1997)
– 歌合戦形式の採点（ヤマハ他，1998）
– 陸上の競争や格闘ゲームなど
（ヤマハ他，1998）
– 曲が盛り上がったら紙ふぶき（ヤマハ，2002）22

• 【意見】ユーザは「より楽しむ」ために
歌う
– カラオケ採点は「批判」であってはいけない
– 事実に基づいてユーザをほめる
• 「歌のうまさ」以外には何があるのか？
– 一生懸命歌っている（ように聞こえる）か
– 感情がこもっている（ように聞こえる）か
– その他のテクニック（誰かに似ているとか）
23

熱唱度
• 歌唱のうまさではなく「一生懸命さ」
– 「長期間努力して獲得したスキル」ではなく
「その場での努力」を評価（刹那的）
• 科学的・技術的問題点
– そもそも「熱唱」の知覚に一貫性があるの
か？
– あったとして、それが自動的に測れるのか？
24

熱唱度は知覚できるか
• データセット
– 「熱唱」「普通」の指示で素人が歌った歌唱音声
– 歌唱者34名「いとしのエリー」
• 2セット、歌い方2段階、4フレーズ
– 評価者30名 0,1,2 の3段階（大きいほど熱唱）
• 分析
– 同一フレーズに対する「自分の評価値」と「自分
以外の評価値平均」との相関の分布を見る
25

• 多くの評価者が0.7～0.9に分布する
– 評価者間の「熱唱度」の知覚傾向は似ている
26

• 歌唱者の「熱唱」「普通」の違いは知覚
されるのか
27

熱唱度は人による
• 「熱く歌う人」の普通は「熱く歌えない
人」の熱唱よりも熱唱
28

熱唱度の自動評価
• 3つの特徴量を使用
– A特性パワー、ずり下げ、ビブラート
人間による評価値との相関 0.66
29

自動評価値と主観評価値
• 比較的高い相関
– 右図は学習と
評価が異なる
楽曲の場合の
結果
– 線形回帰
30

むすびに代えて
• 歌声分析のエンタテイメント応用例
– 「ハミング検索」と「カラオケ採点」
– どちらも「信号処理」「機械学習」「パター
ン認識」の応用例―どちらかといえば基本的
な
• 「精度」よりも「価値創造」
– その技術は応用先にとってどのような価値を
生むのか？
31

謝辞
• この発表で紹介した研究内容は多くの学生・
教員との共同研究です
– 牧野正三（東北文化学園大学）
– 鈴木基之（大阪工業大学）
– 伊藤仁（東北工業大学）
– Sung-Phil Heo
– 市川拓人
– 小杉優
– 細谷徹
– 大道竜之介
32

歌声分析のエンタテイメント応用

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (10)

Mehr von Akinori Ito

Mehr von Akinori Ito (12)

歌声分析のエンタテイメント応用