メタデータを活用した機械学習によるDTMでの音色づくりの効率化

メタデータを利用した機械学習による
DTM(DeskTop Music)での音色づくりの効率化
2016年03月01日
公立はこだて未来大学大学院
大場みち子研究室
修士 1 年齋藤創
g2115015@fun.ac.jp
Efficiency of Timbre Adjustment by Machine Learning Using Metadata
SIGMUS 110回研究発表

背景先行研究目的・目標課題
課題解決
アプローチ
システム実装今後の展望まとめ
発表の流れ
1. 背景
2. 先行研究
3. 目的・目標
4. 課題
5. 課題解決アプローチ
6. システム実装
7. 今後の展望
2016/03/01 2SIGMUS 110

課題解決
アプローチ
背景
PC上での作曲(DTM：DeskTop Music)が発
展
2016/03/01 3SIGMUS 110
消費者生成系メディア(CGM：Consumer Generated Media)が発展[1]
作曲した作品を発表する場が成長
[1]斎藤明, “サービス・ドミナント・ロジックにおける価値共創概念と市場創造 : 「初音ミク」という市場創造を中心として,” 情報文化
学会誌, vol. 21, no. 1, pp. 29–36, Aug. 2014.

課題解決
アプローチ
結果
DTMでの作曲プロセスで『音色づくり』に
時間を要している
背景 <ヒアリング>
2016/03/01 4SIGMUS 110
目的： DTMでの作曲の問題点を調査
被験者： DTM作曲者2名
(作曲プロセス例)

課題解決
アプローチ
音色づくりの概要
2016/03/01 5SIGMUS 110
※ソフトウェア音源：PC内の音源データ
※約35秒
ソフトウェア音源※をそのまま用いると
作りたい楽曲に適さない
DTM作曲者は楽曲に適するように
ソフトウェア音源のパラメータを調整する
音色づくり定義
ソフトウェア音源のパラメータを調整し
楽曲に適した音色を作成する作業

課題解決
アプローチ
先行研究
1. 目的・目標・手法
2. システム概要
3. 実験・評価・考察
4. 問題点
2016/03/01 6SIGMUS 110
メタデータを活用したDTMでの
音色づくり支援システムの構築[2]
[2]齋藤創, 大場みち子, “メタデータを活用したDTM(DeskTop Music)での音づくり支援システムの構築,” presented at the
情報処理学会第77回全国大会, 2015.

課題解決
アプローチ
目的・目標・手法
2016/03/01 7SIGMUS 110
目的：DTM作曲者が意図する音色を効率よく作成できるように支援する
目標：音色の再現性を高める
音色づくり支援システムTASS(Timbre Adjustment Support System)
を構築する
手法 : 音色づくり情報(音色の作成方法)にメタデータ※を付与し
効率的な検索を可能にする
音色づくり情報
オーディオファイル
説明用画像
音色づくり説明文
メタデータ
Synth1(ソフトウェア音源)
(ジャンル) エレクトロ
(雰囲気) 明るい
※メタデータとは
• データについての情報を記述したデータ
• データの性質を的確に反映した検索が可能

課題解決
アプローチ
一覧で表示し、任意の
メタデータを登録可能にする
音色評価に用いられる語句[3]と
その対義語対を用いる
音色づくり情報登録画面
TASS概要 <音色づくり情報の記録>
2016/03/01
DTM作曲者が作成した音色の音色づくり情報にメタデータを付与して登録
ジャンル・ソフトウェア音源
雰囲気
8SIGMUS 110
[3]曽根敏夫，城戸健一， and 二村忠元， “音の評価に使われることばの分析，” 日本音響学会誌， vol. 18， no. 6， pp. 320–326，
Nov. 1962.

課題解決
アプローチ
音色づくり情報登録画面
TASS概要 <音色づくり情報の記録>
2016/03/01
ジャンル・ソフトウェア音源
9SIGMUS 110
ソフトウェア音源
DTM作曲者が作成した音色の音色づくり情報にメタデータを付与して登録
[3]曽根敏夫，城戸健一， and 二村忠元， “音の評価に使われることばの分析，” 日本音響学会誌， vol. 18， no. 6， pp. 320–326，
Nov. 1962.
一覧で表示し、任意の
メタデータを登録可能にする
音色評価に用いられる語句[3]と
その対義語対を用いる
雰囲気

課題解決
アプローチ
TASS概要 <音色づくり情報の検索>
2016/03/01
音色づくり情報検索画面
10SIGMUS 110
登録されたメタデータを利用して音色づくり情報を検索する

課題解決
アプローチ
TASS概要 <検索結果の表示>
2016/03/01
音色づくり情報検索結果画面
• 該当の音色づくり情報を一覧表示
• 音色づくり情報に登録されているオーディオファイルを連続再生
音色の確認を効率化
11SIGMUS 110

課題解決
アプローチ
音色再現実験
2016/03/01
使用条件
事前に登録した
Webサイトを利用
TASSを利用
再現対象の
音色
自作実験1 実験3
他作実験2 実験4
1. 事前に用意した自作、および他作の音色の再現実験
2. TASS利用と事前登録したWebサイト利用との対照実験
3. 実験後にアンケート
実験内容
対象
目的
※各実験は15分間とする
音色再現の満足度が向上しているかどうかを検証
公立はこだて未来大学でDTMを行う学生7名
SIGMUS 110
12

課題解決
アプローチ
実験評価
満足度の評価を6段階で評価し、実験ごとの平均をグラフ化
容易に再現でき
アレンジできた
全く再利用
できなかった
2016/03/01
3.9
5.6
2.0
4.1
1
2
3
4
5
6
Web情報 TASS
音色再現の満足度の平均
自作の音色再現
他作の音色再現
被験者：7名
標準誤差
SIGMUS 110
13

課題解決
アプローチ
実験考察
満足度の評価を6段階で評価し、実験ごとの平均をグラフ化
容易に再現でき
アレンジできた
全く再利用
できなかった
2016/03/01
3.9
5.6
2.0
4.1
1
2
3
4
5
6
Web情報 TASS
音色再現の満足度の平均
自作の音色再現
他作の音色再現
被験者：7名
標準誤差
SIGMUS 110
14
TASSを用いることで、
満足度の高い音色再現が可能
所望の音色に近い音色づくり情報を
より素早く見つけ、作成することが可能

課題解決
アプローチ
問題点
2016/03/01 15SIGMUS 110
TASS
やわらかい
同じ語句でも
ユーザによって
イメージする音色が異なる
Bさん
雰囲気のメタデータを用いた適切な検索ができていない
Aさん
欲しい音色がすぐ
見つかった！
欲しい音色が
なかなか見つからない
検索上位
検索下位

本研究
2016/03/01 16SIGMUS 110

課題解決
アプローチ
目的・目標
2016/03/01 17SIGMUS 110
利用者ごとに適切な音色づくり情報を提示する
TASS V2を構築する
DTMでの作曲を効率よくできるようにする
目的
目標

課題解決
アプローチ
TASS
検索上位
検索下位
課題
2016/03/01 18-1SIGMUS 110
Aさん
Bさん
ユーザによって音色を
表現する語句が異なる
見つかった！

課題解決
アプローチ
TASS
検索上位
検索下位
課題
2016/03/01 18-2SIGMUS 110
Aさん
Bさん
見つかった！
欲しい音色が

課題解決
アプローチ
TASS
検索上位
検索下位
課題
2016/03/01 18-3SIGMUS 110
雰囲気だけでは
適切な音色づくり情報を
提示できていない
Aさん
Bさん
見つかった！
欲しい音色が

課題解決
アプローチ
検索結果
検索上位
検索下位
明るい
TASS V2
Aさん
Bさん
課題解決アプローチ
2016/03/01 19-1SIGMUS 110
「検索に用いた雰囲気」と「オーディオファイルの音響特徴量」を用いた機械学習によ
り、
ユーザごとの雰囲気の認識を反映させた
検索フィルタを作成する

課題解決
アプローチ
検索結果
検索上位
検索下位
TASS V2
陽気な
Aさん
Bさん
2016/03/01 19-2SIGMUS 110
り、
明るい

課題解決
アプローチ
検索結果
検索上位
検索下位
検
索
フ
ィ
ル
タ
TASS V2
陽気な
Aさん
Bさん
2016/03/01 19-3SIGMUS 110
音色の作り方
メタデータ
MFCC
パワー
スペクトラム
音響特徴量閲覧ユーザごとに機械学習
り、
明るい

課題解決
アプローチ
検索結果
検索上位
検索下位
検
索
フ
ィ
ル
タ
TASS V2
陽気な
Aさん
Bさん
2016/03/01 19-4SIGMUS 110
音色の作り方
メタデータ
MFCC
パワー
スペクトラム
音響特徴量閲覧ユーザごとに機械学習
り、
明るい

課題解決
アプローチ
システム実装
2016/03/01 20SIGMUS 110
課題解決アプローチを適用した
TASS V2を実装する
TASS V2
陽気な機械学習
検
索
フ
ィ
ル
タ
パワースペクトラム
雰囲気
明るい
音響特徴量
MFCC
1
3
2

課題解決
アプローチ
代表音色
検索に用いる雰囲気
2016/03/01 21SIGMUS 110
C8:Majestic
Exalting
C5:Delicate
Light
C7:Dramatic
Sensational
C6:Happy
Cheerful
C1:Serious
Sacred
C4:Calm
Quiet
C2:Dar
k
Sad
C3:Dreamy
Sentimental
音楽の心理的表現を形容する語句を
クラスタリングした形容詞群
雰囲気の入力としてK.HEVNERの8つの形容詞群[4]を利用
それぞれのクラスタの
代表音色として
YouTube
オーディオライブラリ[5]
にタグ付けされた音声を
用いる
[4]K. HEVNER, “experimental studies of the elements of expression in music,” American Journal of Psychology, vol. 48,
pp. 246–268, 1936.
[5]“オーディオライブラリ - YouTube.” [Online]. Available: https://www.youtube.com/audiolibrary/music.
[Accessed: 29-Dec-2015].

課題解決
アプローチ
音響特徴量
2016/03/01 22SIGMUS 110
音響特徴量とは[6]
をする場合に用いる音声の解析データ
• 音声認識(声紋認識、楽器同定等)
• 音の生データのままでは扱いきれない処理
本研究では以下の２つの特徴量を取得する
1. パワースペクトラム
2. MFCC
[6]千葉祐弥, “Q：さまざまな音響特徴量それぞれの使い方や意味を教えて下さい,” 音響学会ペディア. [Online].
Available: http://abcpedia.acoustics.jp/acoustic_feature_2.pdf. [Accessed: 30-Dec-2015].

課題解決
アプローチ
音響特徴量 <取得方法>
2016/03/01 23SIGMUS 110
Web Audio API[7]と
拡張ライブラリMeyda[8]を用いて
音響特徴量を動的に取得する必要がある
音響特徴量取得サンプル
音は動的に変化するため
音響特徴量も取得するタイミングによって
値が変化する
1. パワースペクトラム
2. MFCC を取得する
[7] “Web Audio API (日本語訳).” [Online]. Available: http://g200kg.github.io/web-audio-api-ja/. [Accessed: 30-Dec-2015].
[8]Hugh Rawlinson, Nevo Segal, and Jakub Fiala, “Meyda: an Audio Feature Extraction Library for the Web Audio API,”
in WAC 2015, Paris, 2015.

課題解決
アプローチ
音響特徴量 <パワースペクトラム>
2016/03/01 24SIGMUS 110
パワースペクトラムとは[6]
0
s (時間)
0
h()
振
幅
音の大きさに関する特徴量であり、振幅の2乗平均で求められる
音響特徴量を取得する
タイミングによって値が変化
取得するタイミングを決定
するためにパワースペクトラムを用いる
立ち上がり音
中間音

課題解決
アプローチ
音響特徴量 <MFCC>
2016/03/01 25SIGMUS 110
MFCCとは[9]
Mel Frequency Cepstral Coefficientの略称
人の聴覚特性を考慮しながらスペクトルの外形を表現する特徴量
音声認識や、楽器の同定に用いられる
-3
-2
-1
0
1
2
3
0 5 10 15 20
MFCC
Coefficient
例)音声認識の場合
12次元程度までの係数を利用
本研究では12次元までの係数を取得する
[9]宮澤幸希, “メル周波数ケプストラム（MFCC） - Miyazawa’s Pukiwiki 公開版,” Miyazawa’s Pukiwiki 公開版, 29-Mar-2013.
[Online]. Available: http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/66.html. [Accessed: 07-Jul-2015].

課題解決
アプローチ
機械学習
2016/03/01 26SIGMUS 110
TASS V2
1.
2.
3.
DTM作曲者
陽気な( )
検索閲覧
閲覧した音色づくり情報の音響特徴量と
検索に用いた雰囲気を利用して機械学習し
xC
( )m

課題解決
アプローチ
機械学習 <アルゴリズム>
2016/03/01 27SIGMUS 110
x
f = xP +
m - xP{ }
1- 1
Cx - m{ }検索フィルタ(学習後)
検索フィルタ(学習前)
(1)
機械学習アルゴリズム①
TASS V2
1.
2.
3.
DTM作曲者
陽気な( )
検索閲覧
xC
( )m
学習回数が10回以内で学習値が収束( )するように実装10 ³ abs
x
f - xP( )

課題解決
アプローチ
予備実験 <目的・手法>
2016/03/01 28SIGMUS 110
機械学習アルゴリズムを確認するためのデータの取得
目的
手法
1. TASSに登録したオーディオファイル
20種を提示
2. オーディオファイルの雰囲気を
HEVNERの形容詞群を利用して入力
3. 入力されたデータを用いて
機械学習アルゴリズム①を検討する
3名の被験者に対して以下の手順で実験
HEVNERの形容詞入力フォーム

課題解決
アプローチ
0
20
40
60
80
100
C1
C2
C3
C4
C5
C6
C7
C8
20件中の1例
被験者A 被験者B 被験者C
HEVNERの形容詞群
C1 C2 C3 C4 C5 C6 C7 C8
被
験
者
A ーーーー 95 70 ー 10
B ーーーー 85 80 35 45
C 25 ーーーーー 70 15
※数値が高いほどHEVNERの形容詞群に当てはまる
予備実験 <結果・考察>
2016/03/01 29SIGMUS 110
 それぞれの音色に対して
ユーザの感じる雰囲気に差異があることを確認
提示音

課題解決
アプローチ
予備実験 <結果・考察>
-40
-20
0
20
40
60
80
100
1 2 3 4 5 6 7 8 9 1011121314151617181920
学
習
値
学習回数
アルゴリズム①値推移グラフ
C1
C2
C3
C4
C5
C6
C7
C8
x
f = xP +
m - xP{ }
1- 1
Cx - m{ }
(1)
分母が0に近づいたため
極端な値に変異した可能性がある
学習回数が増えるごとに
学習値が一定になる
※10回以内に振れ幅が10以下の場合成功
期待する結果
機械学習アルゴリズム①では
極端な値に変移した
結果
2016/03/01 30SIGMUS 110

課題解決
アプローチ
追加実験 <変更アルゴリズム>
2016/03/01 31SIGMUS 110
TASS
1.
2.
3.
DTM作曲者
陽気な( )
検索( ) 閲覧
xC
( )mxI
検索時に入力された値を考慮し、極端な値を取らないアルゴリズムを利用
abs m( )< xC
x
f = xP + m - xP( )´
abs xC -m( )
xC
´ xI
100
の場合
(2)
abs m( )³ xC
x
f = xP + m - xP( )´ xI
100
の場合
(3)
変更後アルゴリズム②

課題解決
アプローチ
追加実験 <結果>
2016/03/01 32SIGMUS 110
予備実験で取得した入力データを用いて
変更後アルゴリズム②を検証
0
2
4
6
8
10
12
14
16
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
学
習
値
学習回数
変更後アルゴリズム②推移グラフ
C1
C2
C3
C4
C5
C6
C7
C8

課題解決
アプローチ
追加実験 <結果>
2016/03/01 33SIGMUS 110
予備実験で取得した入力データを用いて
変更後アルゴリズム②を検証
学習値が極端に変移しなくなった
-40
-20
0
20
40
60
80
100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
学
習
値
学習回数
アルゴリズム①推移グラフ
-40
-20
0
20
40
60
80
100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
学
習
値
学習回数
C1
C2
C3
C4
C5
C6
C7
C8

課題解決
アプローチ
追加実験 <考察>
2016/03/01 34SIGMUS 110
0
2
4
6
8
10
12
14
16
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
学習値
学習回数
C1
C2
C3
C4
C5
C6
C7
C8
学習値が全て
正にのみ偏っている
機械学習アルゴリズム
を修正する

課題解決
アプローチ
今後の展望
2016/03/01 35SIGMUS 110
機械学習アルゴリズムの精度を上げ、TASS V2の実装を行う
TASS V2を用いることで
DTM作曲者に適切な音色づくり情報を
提示できるようになるかどうか検証を行う

課題解決
アプローチ
今後の展望 <検証>
 目的
機械学習を用いて作成した検索フィルタにより、
ユーザごとに適切な音色づくり情報が提示されていることを
検証する
 手法
TASS V2をリリースし、ユーザのアクセスログを取得
2016/03/01 36SIGMUS 110
アクセスログから
徐々にユーザに最適化される検索フィルタにより
検索時間が減少するかどうかを検証する

課題解決
アプローチ
参考文献
[1]斎藤明, “サービス・ドミナント・ロジックにおける価値共創概念と市場創造 : 「初音ミク」という市
場創造を中心として,” 情報文化学会誌, vol. 21, no. 1, pp. 29–36, Aug. 2014.
[2]齋藤創, 大場みち子, “メタデータを活用したDTM(DeskTop Music)での音づくり支援システムの構築,”
presented at the 情報処理学会第77回全国大会, 2015.
[3]曽根敏夫，城戸健一， and 二村忠元， “音の評価に使われることばの分析，” 日本音響学会誌， vol.
18， no. 6， pp. 320–326， Nov. 1962.
[4]K. HEVNER, “experimental studies of the elements of expression in music,” American Journal of
Psychology, vol. 48, pp. 246–268, 1936.
[5]“オーディオライブラリ - YouTube.” [Online]. Available: https://www.youtube.com/audiolibrary/music.
[Accessed: 29-Dec-2015].
[6]千葉祐弥, “Q：さまざまな音響特徴量それぞれの使い方や意味を教えて下さい,” 音響学会ペディア.
[Online]. Available: http://abcpedia.acoustics.jp/acoustic_feature_2.pdf. [Accessed: 30-Dec-2015].
[7] “Web Audio API (日本語訳).” [Online]. Available: http://g200kg.github.io/web-audio-api-ja/. [Accessed:
30-Dec-2015].
[8]Hugh Rawlinson, Nevo Segal, and Jakub Fiala, “Meyda: an Audio Feature Extraction Library for the
Web Audio API,” in WAC 2015, Paris, 2015.
[9]宮澤幸希, “メル周波数ケプストラム（MFCC） - Miyazawa’s Pukiwiki 公開版,” Miyazawa’s Pukiwiki
公開版, 29-Mar-2013. [Online]. Available: http://shower.human.waseda.ac.jp/~m-
kouki/pukiwiki_public/66.html. [Accessed: 07-Jul-2015].
2016/03/01 37SIGMUS 110

課題解決
アプローチ
まとめ
目的：DTMでの作曲を効率よくできるようにする
目標：利用者ごとに適切な音色づくり情報を提示する
TASS v2を構築する
手法：メタデータに含まれる音響特徴量を利用した
機械学習により、ユーザごとの検索フィルタを
作成する
予備実験：実際にユーザが入力する雰囲気の情報を収集
検証：システムを実際にリリースし、ユーザの
アクセスログからシステムの有効性を示す
2016/03/01 38SIGMUS 110

メタデータを活用した機械学習によるDTMでの音色づくりの効率化

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (9)

メタデータを活用した機械学習によるDTMでの音色づくりの効率化

Hinweis der Redaktion