メタデータを活用した機械学習によるDTMでの音色づくりの効率化

メタデータを利用した機械学習による
DTM(DeskTop Music)での音色づくりの効率化
2016年03月01日

公立はこだて未来大学大学院

大場みち子研究室

修士 1 年
齋藤創

g2115015@fun.ac.jp

Efficiency of Timbre Adjustment by Machine Learning Using Metadata

SIGMUS 110回研究発表

背景先行研究目的・目標課題
課題解決
アプローチシステム実装今後の展望まとめ
発表の流れ
1.  背景

2.  先行研究

3.  目的・目標

4.  課題

5.  課題解決アプローチ

6.  システム実装

7.  今後の展望

2016/03/01
2
SIGMUS 110

課題解決
背景
PC上での作曲(DTM：DeskTop Music)が発展
2016/03/01
3
SIGMUS 110
消費者生成系メディア(CGM：Consumer Generated Media)が発展[1]
作曲した作品を発表する場が成長
[1]斎藤明, “サービス・ドミナント・ロジックにおける価値共創概念と市場創造 : 「初音ミク」という市場創造を中心として,” 情
報文化学会誌, vol. 21, no. 1, pp. 29‒36, Aug. 2014.

課題解決
結果
DTMでの作曲プロセスで『音色づくり』に
時間を要している
背景 <ヒアリング>
2016/03/01
4
SIGMUS 110
目的： DTMでの作曲の問題点を調査
被験者： DTM作曲者2名
構想音色づくり
メロディ
作成
バランス
調整
(作曲プロセス例)

課題解決
音色づくりの概要
2016/03/01
5
SIGMUS 110
※ソフトウェア⾳源：PC内の⾳源データ
※約35秒
ソフトウェア⾳源※をそのまま⽤いると
作りたい楽曲に適さない
DTM作曲者は楽曲に適するように
ソフトウェア⾳源のパラメータを調整する
⾳⾊づくり定義
ソフトウェア⾳源のパラメータを調整し
楽曲に適した⾳⾊を作成する作業

課題解決
先行研究
1. 目的・目標・手法

2. システム概要

3. 実験・評価・考察

4. 問題点

2016/03/01
6
SIGMUS 110
メタデータを活用したDTMでの
音色づくり支援システムの構築[2]
[2]齋藤創, 大場みち子, メタデータを活用したDTM(DeskTop Music)での音づくり支援システムの構築,” presented at the
情報処理学会第77回全国大会, 2015.

課題解決
目的・目標・手法
2016/03/01
7
SIGMUS 110
目的：DTM作曲者が意図する音色を効率よく作成できるように支援する
目標：音色の再現性を高める
音色づくり支援システムTASS(Timbre Adjustment Support System)
を構築する
手法 : 音色づくり情報(音色の作成方法)にメタデータ※を付与し
効率的な検索を可能にする
音色づくり情報
オーディオファイル
説明用画像
音色づくり説明文
メタデータ
Synth1(ソフトウェア音源)
(ジャンル) エレクトロ
(雰囲気) 明るい
※メタデータとは
•  データについての情報を記述したデータ
•  データの性質を的確に反映した検索が可能

課題解決

一覧で表示し、任意の
メタデータを登録可能にする
音色評価に用いられる語句[3]と
その対義語対を用いる

音色づくり情報登録画面
TASS概要 <音色づくり情報の記録>
2016/03/01

DTM作曲者が作成した音色の音色づくり情報にメタデータを付与して登録
ジャンル・ソフトウェア音源
雰囲気
8
SIGMUS 110
[3]曽根敏夫，城戸健一， and 二村忠元，音の評価に使われることばの分析，日本音響学会誌， vol. 18， no. 6， pp. 320‒326，
Nov. 1962.

課題解決
音色づくり情報登録画面
TASS概要 <音色づくり情報の記録>
2016/03/01

ジャンル・ソフトウェア音源
9
SIGMUS 110
ソフトウェア音源
DTM作曲者が作成した音色の音色づくり情報にメタデータを付与して登録
[3]曽根敏夫，城戸健一， and 二村忠元，音の評価に使われることばの分析，日本音響学会誌， vol. 18， no. 6， pp. 320‒326，
Nov. 1962.

一覧で表示し、任意の
メタデータを登録可能にする
音色評価に用いられる語句[3]と
その対義語対を用いる

雰囲気

課題解決
TASS概要 <音色づくり情報の検索>
2016/03/01

音色づくり情報検索画面
10
SIGMUS 110
登録されたメタデータを利用して音色づくり情報を検索する

課題解決
TASS概要 <検索結果の表示>
2016/03/01

音色づくり情報検索結果画面
•  該当の音色づくり情報を一覧表示
•  音色づくり情報に登録されているオーディオファイルを連続再生
音色の確認を効率化
11
SIGMUS 110

課題解決
音色再現実験
2016/03/01

使用条件
事前に登録した
Webサイトを利用
TASSを利用
再現対象の
音色
自作実験1 実験3
他作実験2 実験4
1.  事前に用意した自作、および他作の音色の再現実験
2.  TASS利用と事前登録したWebサイト利用との対照実験
3.  実験後にアンケート
実験内容
対象
目的
※各実験は15分間とする
音色再現の満足度が向上しているかどうかを検証
公立はこだて未来大学でDTMを行う学生7名
SIGMUS 110
12

課題解決
実験評価
満足度の評価を6段階で評価し、実験ごとの平均をグラフ化
容易に再現でき
アレンジできた
全く再利用
できなかった
2016/03/01

3.9
5.6
2.0
4.1
1
2
3
4
5
6
Web情報 TASS
音色再現の満足度の平均
自作の音色再現
他作の音色再現
被験者：7名
標準誤差
SIGMUS 110
13

課題解決
実験考察
満足度の評価を6段階で評価し、実験ごとの平均をグラフ化
容易に再現でき
アレンジできた
全く再利用
できなかった
2016/03/01

3.9
5.6
2.0
4.1
1
2
3
4
5
6
Web情報 TASS
音色再現の満足度の平均
自作の音色再現
他作の音色再現
被験者：7名
標準誤差
SIGMUS 110
14

TASSを用いることで、
満足度の高い音色再現が可能
所望の音色に近い音色づくり情報を
より素早く見つけ、作成することが可能

課題解決
問題点
2016/03/01
15
SIGMUS 110
TASS

やわらかい�
同じ語句でも
ユーザによって
イメージする音色が異なる�
Bさん
雰囲気のメタデータを用いた適切な検索ができていない
Aさん
欲しい音色がすぐ
見つかった！
欲しい音色が
なかなか見つからない
検索上位
検索下位

本研究
2016/03/01
16
SIGMUS 110

課題解決
目的・目標
2016/03/01
17
SIGMUS 110
利用者ごとに適切な音色づくり情報を提示する
TASS V2を構築する
DTMでの作曲を効率よくできるようにする
目的
目標

課題解決
TASS
検索上位
検索下位
課題
2016/03/01
18-1
SIGMUS 110
Aさん
Bさん
ユーザによって音色を
表現する語句が異なる
見つかった！
明るい

課題解決
TASS
検索上位
検索下位
課題
2016/03/01
18-2
SIGMUS 110
Aさん
Bさん
見つかった！
欲しい音色が
陽気な

課題解決
TASS
検索上位
検索下位
課題
2016/03/01
18-3
SIGMUS 110
雰囲気だけでは
適切な音色づくり情報を
提示できていない
Aさん
Bさん
見つかった！
欲しい音色が
陽気な

課題解決
検索結果
検索上位
検索下位
明るい
TASS V2

Aさん
Bさん
課題解決アプローチ
2016/03/01
19-1
SIGMUS 110
「検索に用いた雰囲気」と「オーディオファイルの音響特徴量」を用いた機械学習により、
ユーザごとの雰囲気の認識を反映させた
検索フィルタを作成する

課題解決
検索結果
検索上位
検索下位
TASS V2

陽気な
Aさん
Bさん
2016/03/01
19-2
SIGMUS 110
明るい

課題解決
検索結果
検索上位
検索下位
検
索
フ
ィ
ル
タ
TASS V2

陽気な
Aさん
Bさん
2016/03/01
19-3
SIGMUS 110
音色の作り方
メタデータ
MFCC
パワー
スペクトラム
音響特徴量閲覧ユーザごとに機械学習
明るい

課題解決
検索結果
検索上位
検索下位
検
索
フ
ィ
ル
タ
TASS V2

陽気な
Aさん
Bさん
2016/03/01
19-4
SIGMUS 110
音色の作り方
メタデータ
MFCC
パワー
スペクトラム
音響特徴量閲覧ユーザごとに機械学習
明るい

課題解決
システム実装
2016/03/01
20
SIGMUS 110
課題解決アプローチを適用した
TASS V2を実装する
TASS V2

陽気な機械学習
検
索
フ
ィ
ル
タ
パワースペクトラム
雰囲気
明るい
音響特徴量
MFCC
1

3

2

課題解決
代表音色
検索に用いる雰囲気
2016/03/01
21
SIGMUS 110
C8:Majestic

Exalting

C5:Delicate

Light

C7:Dramatic

Sensational

C6:Happy

Cheerful

C1:Serious

Sacred

C4:Calm

Quiet

C2:Dark

Sad

C3:Dreamy

Sentimental

音楽の心理的表現を形容する語句を
クラスタリングした形容詞群
雰囲気の入力としてK.HEVNERの8つの形容詞群[4]を利用
それぞれのクラスタの
代表音色として
YouTube
オーディオライブラリ[5]
にタグ付けされた音声を
用いる
[4]K. HEVNER, “experimental studies of the elements of expression in music,” American Journal of Psychology, vol. 48,
pp. 246‒268, 1936.

[5] オーディオライブラリ - YouTube.” [Online]. Available: https://www.youtube.com/audiolibrary/music.
[Accessed: 29-Dec-2015].

課題解決
音響特徴量
2016/03/01
22
SIGMUS 110
音響特徴量とは[6]
をする場合に用いる音声の解析データ
•  音声認識(声紋認識、楽器同定等)

•  音の生データのままでは扱いきれない処理

本研究では以下の２つの特徴量を取得する
1. パワースペクトラム

2. MFCC

[6]千葉祐弥, “Q：さまざまな音響特徴量それぞれの使い方や意味を教えて下さい, 音響学会ペディア. [Online].
Available: http://abcpedia.acoustics.jp/acoustic_feature_2.pdf. [Accessed: 30-Dec-2015].

課題解決
音響特徴量 <取得方法>
2016/03/01
23
SIGMUS 110
Web Audio API[7]と
拡張ライブラリMeyda[8]を用いて
音響特徴量を動的に取得する必要がある
音響特徴量取得サンプル
音は動的に変化するため
音響特徴量も取得するタイミングによって
値が変化する
1.  パワースペクトラム
2.  MFCC を取得する
[7] “Web Audio API (日本語訳).” [Online]. Available: http://g200kg.github.io/web-audio-api-ja/. [Accessed: 30-Dec-2015].

[8]Hugh Rawlinson, Nevo Segal, and Jakub Fiala, “Meyda: an Audio Feature Extraction Library for the Web Audio API,”
in WAC 2015, Paris, 2015.

課題解決
音響特徴量 <パワースペクトラム>
2016/03/01
24
SIGMUS 110
パワースペクトラムとは[6]
0
s (時間)
0
h(

)
振
幅
音の大きさに関する特徴量であり、振幅の2乗平均で求められる
音響特徴量を取得する
タイミングによって値が変化
取得するタイミングを決定
するためにパワースペクトラムを用いる
立ち上がり音
中間音

課題解決
音響特徴量 <MFCC>
2016/03/01
25
SIGMUS 110
MFCCとは[9]
Mel Frequency Cepstral Coeﬃcientの略称
人の聴覚特性を考慮しながらスペクトルの外形を表現する特徴量
音声認識や、楽器の同定に用いられる
-3

-2

-1

0

1

2

3

0
5
10
15
20

MFCC

Coefficient

例)音声認識の場合
12次元程度までの係数を利用
本研究では12次元までの係数を取得する
[9]宮澤幸希, メル周波数ケプストラム（MFCC） - Miyazawa’s Pukiwiki 公開版,” Miyazawa’s Pukiwiki 公開版, 29-Mar-2013.
[Online]. Available: http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/66.html. [Accessed: 07-Jul-2015].

課題解決
機械学習
2016/03/01
26
SIGMUS 110
TASS V2

1.

2.

3.

DTM作曲者

陽気な( )
検索� 閲覧�
閲覧した音色づくり情報の音響特徴量と
検索に用いた雰囲気を利用して機械学習し
xC
( )m

課題解決
機械学習 <アルゴリズム>
2016/03/01
27
SIGMUS 110
x
f = xP +
m − xP{ }
1− 1
Cx − m{ }検索フィルタ(学習後)
検索フィルタ(学習前)
(1)
機械学習アルゴリズム①

TASS V2

1.

2.

3.

DTM作曲者

陽気な( )
検索� 閲覧�
xC
( )m
学習回数が10回以内で学習値が収束( )するように実装10 ≥ abs
x
f − xP( )

課題解決
予備実験 <目的・手法>
2016/03/01
28
SIGMUS 110
機械学習アルゴリズムを確認するためのデータの取得
目的
手法
1.  TASSに登録したオーディオファイル
20種を提示
2.  オーディオファイルの雰囲気を
HEVNERの形容詞群を利用して入力
3.  入力されたデータを用いて
機械学習アルゴリズム①を検討する
3名の被験者に対して以下の手順で実験
HEVNERの形容詞入力フォーム

課題解決
0
20
40
60
80
100
C1
C2
C3
C4
C5
C6
C7
C8
20件中の1例
被験者A 被験者B 被験者C
HEVNERの形容詞群
C1
C2
C3
C4
C5
C6
C7
C8

被
験
者
A ー
ー
ー
ー
95
70
ー
10

B ー
ー
ー
ー
85
80
35
45

C 25
ー
ー
ー
ー
ー
70
15

※数値が高いほどHEVNERの形容詞群に当てはまる
予備実験 <結果・考察>
2016/03/01
29
SIGMUS 110
n  それぞれの音色に対して
ユーザの感じる雰囲気に差異があることを確認
提示音

課題解決
予備実験 <結果・考察>
-40

-20

0

20

40

60

80

100

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

学
習
値
学習回数
アルゴリズム①値推移グラフ
C1
C2
C3
C4
C5
C6
C7
C8
x
f = xP +
m − xP{ }
1− 1
Cx − m{ }
(1)
分母が0に近づいたため
極端な値に変異した可能性がある
学習回数が増えるごとに
学習値が一定になる
※10回以内に振れ幅が10以下の場合成功
期待する結果
機械学習アルゴリズム①では
極端な値に変移した
結果
2016/03/01
30
SIGMUS 110

課題解決
追加実験 <変更アルゴリズム>
2016/03/01
31
SIGMUS 110
TASS

1.

2.

3.

DTM作曲者

陽気な( )
検索( )� 閲覧
xC
( )mxI
検索時に入力された値を考慮し、極端な値を取らないアルゴリズムを利用
abs m( )< xC
x
f = xP + m − xP( )×
abs xC − m( )
xC
× xI
100
の場合
(2)
abs m( )≥ xC
x
f = xP + m − xP( )× xI
100
の場合
(3)
変更後アルゴリズム②

課題解決
追加実験 <結果>
2016/03/01
32
SIGMUS 110
予備実験で取得した入力データを用いて
変更後アルゴリズム②を検証
0
2
4
6
8
10
12
14
16
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
学
習
値
学習回数
変更後アルゴリズム②推移グラフ
C1
C2
C3
C4
C5
C6
C7
C8

課題解決
追加実験 <結果>
2016/03/01
33
SIGMUS 110
予備実験で取得した入力データを用いて
変更後アルゴリズム②を検証
学習値が極端に変移しなくなった
-40

-20

0

20

40

60

80

100

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

学
習
値
学習回数
アルゴリズム①推移グラフ
-40
-20
0
20
40
60
80
100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
学
習
値
学習回数
C1
C2
C3
C4
C5
C6
C7
C8

課題解決
追加実験 <考察>
2016/03/01
34
SIGMUS 110
0
2
4
6
8
10
12
14
16
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
学習値
学習回数
C1
C2
C3
C4
C5
C6
C7
C8
学習値が全て
正にのみ偏っている
機械学習アルゴリズム
を修正する

課題解決
今後の展望
2016/03/01
35
SIGMUS 110
機械学習アルゴリズムの精度を上げ、TASS V2の実装を行う
TASS V2を用いることで
DTM作曲者に適切な音色づくり情報を
提示できるようになるかどうか検証を行う

課題解決
今後の展望 <検証>
n  目的

u 機械学習を用いて作成した検索フィルタにより、
ユーザごとに適切な音色づくり情報が提示されていることを
検証する

n  手法

u TASS V2をリリースし、ユーザのアクセスログを取得

2016/03/01
36
SIGMUS 110
アクセスログから

徐々にユーザに最適化される検索フィルタにより

検索時間が減少するかどうかを検証する

課題解決
参考文献
[1]斎藤明, “サービス・ドミナント・ロジックにおける価値共創概念と市場創造 : 「初音ミク」とい
う市場創造を中心として,” 情報文化学会誌, vol. 21, no. 1, pp. 29‒36, Aug. 2014.

[2]齋藤創, 大場みち子, “メタデータを活用したDTM(DeskTop Music)での音づくり支援システムの構
築,” presented at the 情報処理学会第77回全国大会, 2015.

[3]曽根敏夫，城戸健一， and 二村忠元，音の評価に使われることばの分析，日本音響学会誌，
vol. 18， no. 6， pp. 320‒326， Nov. 1962.

[4]K. HEVNER, “experimental studies of the elements of expression in music,” American
Journal of Psychology, vol. 48, pp. 246‒268, 1936.

[5]“オーディオライブラリ - YouTube.” [Online]. Available: https://www.youtube.com/
audiolibrary/music. [Accessed: 29-Dec-2015].

[6]千葉祐弥, “Q：さまざまな音響特徴量それぞれの使い方や意味を教えて下さい,” 音響学会ペディ
ア. [Online]. Available: http://abcpedia.acoustics.jp/acoustic_feature_2.pdf. [Accessed:
30-Dec-2015].

[7] “Web Audio API (日本語訳).” [Online]. Available: http://g200kg.github.io/web-audio-
api-ja/. [Accessed: 30-Dec-2015].

[8]Hugh Rawlinson, Nevo Segal, and Jakub Fiala, “Meyda: an Audio Feature Extraction Library
for the Web Audio API,” in WAC 2015, Paris, 2015.

[9]宮澤幸希, “メル周波数ケプストラム（MFCC） - Miyazawa’s Pukiwiki 公開版,” Miyazawa’s
Pukiwiki 公開版, 29-Mar-2013. [Online]. Available: http://shower.human.waseda.ac.jp/~m-
kouki/pukiwiki_public/66.html. [Accessed: 07-Jul-2015].

2016/03/01
37
SIGMUS 110

課題解決
まとめ
目的：DTMでの作曲を効率よくできるようにする

目標：利用者ごとに適切な音色づくり情報を提示する
TASS v2を構築する

手法：メタデータに含まれる音響特徴量を利用した
機械学習により、ユーザごとの検索フィルタを
作成する

予備実験：実際にユーザが入力する雰囲気の情報を収集

検証：システムを実際にリリースし、ユーザの
アクセスログからシステムの有効性を示す

2016/03/01
38
SIGMUS 110

メタデータを活用した機械学習によるDTMでの音色づくりの効率化

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (6)

Similar to メタデータを活用した機械学習によるDTMでの音色づくりの効率化

Similar to メタデータを活用した機械学習によるDTMでの音色づくりの効率化 (20)

Recently uploaded

Recently uploaded (11)

メタデータを活用した機械学習によるDTMでの音色づくりの効率化