SlideShare ist ein Scribd-Unternehmen logo
1 von 43
メタデータを利用した機械学習による
DTM(DeskTop Music)での音色づくりの効率化
2016年03月01日
公立はこだて未来大学大学院
大場みち子研究室
修士 1 年 齋藤 創
g2115015@fun.ac.jp
Efficiency of Timbre Adjustment by Machine Learning Using Metadata
SIGMUS 110回研究発表
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
発表の流れ
1. 背景
2. 先行研究
3. 目的・目標
4. 課題
5. 課題解決アプローチ
6. システム実装
7. 今後の展望
2016/03/01 2SIGMUS 110
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
背景
PC上での作曲(DTM:DeskTop Music)が発
展
2016/03/01 3SIGMUS 110
消費者生成系メディア(CGM:Consumer Generated Media)が発展[1]
作曲した作品を発表する場が成長
[1]斎藤明, “サービス・ドミナント・ロジックにおける価値共創概念と市場創造 : 「初音ミク」という市場創造を中心として,” 情報文化
学会誌, vol. 21, no. 1, pp. 29–36, Aug. 2014.
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
結果
DTMでの作曲プロセスで『音色づくり』に
時間を要している
背景 <ヒアリング>
2016/03/01 4SIGMUS 110
目的 : DTMでの作曲の問題点を調査
被験者 : DTM作曲者2名
(作曲プロセス例)
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
音色づくりの概要
2016/03/01 5SIGMUS 110
※ソフトウェア音源:PC内の音源データ
※約35秒
ソフトウェア音源※をそのまま用いると
作りたい楽曲に適さない
DTM作曲者は楽曲に適するように
ソフトウェア音源のパラメータを調整する
音色づくり定義
ソフトウェア音源のパラメータを調整し
楽曲に適した音色を作成する作業
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
先行研究
1. 目的・目標・手法
2. システム概要
3. 実験・評価・考察
4. 問題点
2016/03/01 6SIGMUS 110
メタデータを活用したDTMでの
音色づくり支援システムの構築[2]
[2]齋藤創, 大場みち子, “メタデータを活用したDTM(DeskTop Music)での音づくり支援システムの構築,” presented at the
情報処理学会第77回全国大会, 2015.
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
目的・目標・手法
2016/03/01 7SIGMUS 110
目的:DTM作曲者が意図する音色を効率よく作成できるように支援する
目標:音色の再現性を高める
音色づくり支援システムTASS(Timbre Adjustment Support System)
を構築する
手法 : 音色づくり情報(音色の作成方法)にメタデータ※を付与し
効率的な検索を可能にする
音色づくり情報
オーディオファイル
説明用画像
音色づくり説明文
メタデータ
Synth1(ソフトウェア音源)
(ジャンル) エレクトロ
(雰囲気) 明るい
※メタデータとは
• データについての情報を記述したデータ
• データの性質を的確に反映した検索が可能
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
一覧で表示し、任意の
メタデータを登録可能にする
音色評価に用いられる語句[3]と
その対義語対を用いる
音色づくり情報登録画面
TASS概要 <音色づくり情報の記録>
2016/03/01
DTM作曲者が作成した音色の音色づくり情報にメタデータを付与して登録
ジャンル・ソフトウェア音源
雰囲気
8SIGMUS 110
[3]曽根敏夫, 城戸健一, and 二村忠元, “音の評価に使われることばの分析,” 日本音響学会誌, vol. 18, no. 6, pp. 320–326,
Nov. 1962.
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
音色づくり情報登録画面
TASS概要 <音色づくり情報の記録>
2016/03/01
ジャンル・ソフトウェア音源
9SIGMUS 110
ソフトウェア音源
DTM作曲者が作成した音色の音色づくり情報にメタデータを付与して登録
[3]曽根敏夫, 城戸健一, and 二村忠元, “音の評価に使われることばの分析,” 日本音響学会誌, vol. 18, no. 6, pp. 320–326,
Nov. 1962.
一覧で表示し、任意の
メタデータを登録可能にする
音色評価に用いられる語句[3]と
その対義語対を用いる
雰囲気
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
TASS概要 <音色づくり情報の検索>
2016/03/01
音色づくり情報検索画面
10SIGMUS 110
登録されたメタデータを利用して音色づくり情報を検索する
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
TASS概要 <検索結果の表示>
2016/03/01
音色づくり情報検索結果画面
• 該当の音色づくり情報を一覧表示
• 音色づくり情報に登録されているオーディオファイルを連続再生
音色の確認を効率化
11SIGMUS 110
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
音色再現実験
2016/03/01
使用条件
事前に登録した
Webサイトを利用
TASSを利用
再現対象の
音色
自作 実験1 実験3
他作 実験2 実験4
1. 事前に用意した自作、および他作の音色の再現実験
2. TASS利用と事前登録したWebサイト利用との対照実験
3. 実験後にアンケート
実験内容
対象
目的
※各実験は15分間とする
音色再現の満足度が向上しているかどうかを検証
公立はこだて未来大学でDTMを行う学生7名
SIGMUS 110
12
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
実験評価
満足度の評価を6段階で評価し、実験ごとの平均をグラフ化
容易に再現でき
アレンジできた
全く再利用
できなかった
2016/03/01
3.9
5.6
2.0
4.1
1
2
3
4
5
6
Web情報 TASS
音色再現の満足度の平均
自作の音色再現
他作の音色再現
被験者:7名
標準誤差
SIGMUS 110
13
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
実験考察
満足度の評価を6段階で評価し、実験ごとの平均をグラフ化
容易に再現でき
アレンジできた
全く再利用
できなかった
2016/03/01
3.9
5.6
2.0
4.1
1
2
3
4
5
6
Web情報 TASS
音色再現の満足度の平均
自作の音色再現
他作の音色再現
被験者:7名
標準誤差
SIGMUS 110
14
TASSを用いることで、
満足度の高い音色再現が可能
所望の音色に近い音色づくり情報を
より素早く見つけ、作成することが可能
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
問題点
2016/03/01 15SIGMUS 110
TASS
やわらかい
同じ語句でも
ユーザによって
イメージする音色が異なる
Bさん
雰囲気のメタデータを用いた適切な検索ができていない
Aさん
欲しい音色がすぐ
見つかった!
欲しい音色が
なかなか見つからない
検索上位
検索下位
本研究
2016/03/01 16SIGMUS 110
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
目的・目標
2016/03/01 17SIGMUS 110
利用者ごとに適切な音色づくり情報を提示する
TASS V2を構築する
DTMでの作曲を効率よくできるようにする
目的
目標
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
TASS
検索上位
検索下位
課題
2016/03/01 18-1SIGMUS 110
Aさん
Bさん
ユーザによって音色を
表現する語句が異なる
欲しい音色がすぐ
見つかった!
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
TASS
検索上位
検索下位
課題
2016/03/01 18-2SIGMUS 110
Aさん
Bさん
ユーザによって音色を
表現する語句が異なる
欲しい音色がすぐ
見つかった!
欲しい音色が
なかなか見つからない
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
TASS
検索上位
検索下位
課題
2016/03/01 18-3SIGMUS 110
雰囲気だけでは
適切な音色づくり情報を
提示できていない
Aさん
Bさん
ユーザによって音色を
表現する語句が異なる
欲しい音色がすぐ
見つかった!
欲しい音色が
なかなか見つからない
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
検索結果
検索上位
検索下位
明るい
TASS V2
Aさん
Bさん
課題解決アプローチ
2016/03/01 19-1SIGMUS 110
「検索に用いた雰囲気」と「オーディオファイルの音響特徴量」を用いた機械学習によ
り、
ユーザごとの雰囲気の認識を反映させた
検索フィルタを作成する
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
検索結果
検索上位
検索下位
TASS V2
陽気な
Aさん
Bさん
課題解決アプローチ
2016/03/01 19-2SIGMUS 110
「検索に用いた雰囲気」と「オーディオファイルの音響特徴量」を用いた機械学習によ
り、
ユーザごとの雰囲気の認識を反映させた
検索フィルタを作成する
明るい
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
検索結果
検索上位
検索下位
検
索
フ
ィ
ル
タ
TASS V2
陽気な
Aさん
Bさん
課題解決アプローチ
2016/03/01 19-3SIGMUS 110
音色づくり情報
オーディオファイル
音色の作り方
メタデータ
MFCC
パワー
スペクトラム
音響特徴量閲覧ユーザごとに機械学習
「検索に用いた雰囲気」と「オーディオファイルの音響特徴量」を用いた機械学習によ
り、
ユーザごとの雰囲気の認識を反映させた
検索フィルタを作成する
明るい
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
検索結果
検索上位
検索下位
検
索
フ
ィ
ル
タ
TASS V2
陽気な
Aさん
Bさん
課題解決アプローチ
2016/03/01 19-4SIGMUS 110
音色づくり情報
オーディオファイル
音色の作り方
メタデータ
MFCC
パワー
スペクトラム
音響特徴量閲覧ユーザごとに機械学習
「検索に用いた雰囲気」と「オーディオファイルの音響特徴量」を用いた機械学習によ
り、
ユーザごとの雰囲気の認識を反映させた
検索フィルタを作成する
明るい
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
システム実装
2016/03/01 20SIGMUS 110
課題解決アプローチを適用した
TASS V2を実装する
TASS V2
陽気な 機械学習
検
索
フ
ィ
ル
タ
パワースペクトラム
雰囲気
明るい
音響特徴量
MFCC
1
3
2
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
代表音色
検索に用いる雰囲気
2016/03/01 21SIGMUS 110
C8:Majestic
Exalting
C5:Delicate
Light
C7:Dramatic
Sensational
C6:Happy
Cheerful
C1:Serious
Sacred
C4:Calm
Quiet
C2:Dar
k
Sad
C3:Dreamy
Sentimental
音楽の心理的表現を形容する語句を
クラスタリングした形容詞群
雰囲気の入力としてK.HEVNERの8つの形容詞群[4]を利用
それぞれのクラスタの
代表音色として
YouTube
オーディオライブラリ[5]
にタグ付けされた音声を
用いる
[4]K. HEVNER, “experimental studies of the elements of expression in music,” American Journal of Psychology, vol. 48,
pp. 246–268, 1936.
[5]“オーディオ ライブラリ - YouTube.” [Online]. Available: https://www.youtube.com/audiolibrary/music.
[Accessed: 29-Dec-2015].
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
音響特徴量
2016/03/01 22SIGMUS 110
音響特徴量とは[6]
をする場合に用いる音声の解析データ
• 音声認識(声紋認識、楽器同定等)
• 音の生データのままでは扱いきれない処理
本研究では以下の2つの特徴量を取得する
1. パワースペクトラム
2. MFCC
[6]千葉祐弥, “Q:さまざまな音響特徴量それぞれの使い方や意味を教えて下さい,” 音響学会ペディア. [Online].
Available: http://abcpedia.acoustics.jp/acoustic_feature_2.pdf. [Accessed: 30-Dec-2015].
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
音響特徴量 <取得方法>
2016/03/01 23SIGMUS 110
Web Audio API[7]と
拡張ライブラリMeyda[8]を用いて
音響特徴量を動的に取得する必要がある
音響特徴量取得サンプル
音は動的に変化するため
音響特徴量も取得するタイミングによって
値が変化する
1. パワースペクトラム
2. MFCC を取得する
[7] “Web Audio API (日本語訳).” [Online]. Available: http://g200kg.github.io/web-audio-api-ja/. [Accessed: 30-Dec-2015].
[8]Hugh Rawlinson, Nevo Segal, and Jakub Fiala, “Meyda: an Audio Feature Extraction Library for the Web Audio API,”
in WAC 2015, Paris, 2015.
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
音響特徴量 <パワースペクトラム>
2016/03/01 24SIGMUS 110
パワースペクトラムとは[6]
0
s (時間)
0
h()
振
幅
音の大きさに関する特徴量であり、振幅の2乗平均で求められる
音響特徴量を取得する
タイミングによって値が変化
取得するタイミングを決定
するためにパワースペクトラムを用いる
立ち上がり音
中間音
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
音響特徴量 <MFCC>
2016/03/01 25SIGMUS 110
MFCCとは[9]
Mel Frequency Cepstral Coefficientの略称
人の聴覚特性を考慮しながらスペクトルの外形を表現する特徴量
音声認識や、楽器の同定に用いられる
-3
-2
-1
0
1
2
3
0 5 10 15 20
MFCC
Coefficient
例)音声認識の場合
12次元程度までの係数を利用
本研究では12次元までの係数を取得する
[9]宮澤幸希, “メル周波数ケプストラム(MFCC) - Miyazawa’s Pukiwiki 公開版,” Miyazawa’s Pukiwiki 公開版, 29-Mar-2013.
[Online]. Available: http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/66.html. [Accessed: 07-Jul-2015].
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
機械学習
2016/03/01 26SIGMUS 110
TASS V2
1.
2.
3.
DTM作曲者
陽気な( )
検索 閲覧
閲覧した音色づくり情報の音響特徴量と
検索に用いた雰囲気を利用して機械学習し
検索フィルタを作成する
xC
( )m
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
機械学習 <アルゴリズム>
2016/03/01 27SIGMUS 110
x
f = xP +
m - xP{ }
1- 1
Cx - m{ }検索フィルタ(学習後)
検索フィルタ(学習前)
(1)
機械学習アルゴリズム①
TASS V2
1.
2.
3.
DTM作曲者
陽気な( )
検索 閲覧
xC
( )m
学習回数が10回以内で学習値が収束( )するように実装10 ³ abs
x
f - xP( )
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
予備実験 <目的・手法>
2016/03/01 28SIGMUS 110
機械学習アルゴリズムを確認するためのデータの取得
目的
手法
1. TASSに登録したオーディオファイル
20種を提示
2. オーディオファイルの雰囲気を
HEVNERの形容詞群を利用して入力
3. 入力されたデータを用いて
機械学習アルゴリズム①を検討する
3名の被験者に対して以下の手順で実験
HEVNERの形容詞入力フォーム
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
0
20
40
60
80
100
C1
C2
C3
C4
C5
C6
C7
C8
20件中の1例
被験者A 被験者B 被験者C
HEVNERの形容詞群
C1 C2 C3 C4 C5 C6 C7 C8
被
験
者
A ー ー ー ー 95 70 ー 10
B ー ー ー ー 85 80 35 45
C 25 ー ー ー ー ー 70 15
※数値が高いほどHEVNERの形容詞群に当てはまる
予備実験 <結果・考察>
2016/03/01 29SIGMUS 110
 それぞれの音色に対して
ユーザの感じる雰囲気に差異があることを確認
提示音
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
予備実験 <結果・考察>
-40
-20
0
20
40
60
80
100
1 2 3 4 5 6 7 8 9 1011121314151617181920
学
習
値
学習回数
アルゴリズム①値推移グラフ
C1
C2
C3
C4
C5
C6
C7
C8
x
f = xP +
m - xP{ }
1- 1
Cx - m{ }
(1)
分母が0に近づいたため
極端な値に変異した可能性がある
学習回数が増えるごとに
学習値が一定になる
※10回以内に振れ幅が10以下の場合成功
期待する結果
機械学習アルゴリズム①では
極端な値に変移した
結果
2016/03/01 30SIGMUS 110
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
追加実験 <変更アルゴリズム>
2016/03/01 31SIGMUS 110
TASS
1.
2.
3.
DTM作曲者
陽気な( )
検索( ) 閲覧
xC
( )mxI
検索時に入力された値を考慮し、極端な値を取らないアルゴリズムを利用
abs m( )< xC
x
f = xP + m - xP( )´
abs xC -m( )
xC
´ xI
100
の場合
(2)
abs m( )³ xC
x
f = xP + m - xP( )´ xI
100
の場合
(3)
変更後アルゴリズム②
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
追加実験 <結果>
2016/03/01 32SIGMUS 110
予備実験で取得した入力データを用いて
変更後アルゴリズム②を検証
0
2
4
6
8
10
12
14
16
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
学
習
値
学習回数
変更後アルゴリズム②推移グラフ
C1
C2
C3
C4
C5
C6
C7
C8
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
追加実験 <結果>
2016/03/01 33SIGMUS 110
予備実験で取得した入力データを用いて
変更後アルゴリズム②を検証
学習値が極端に変移しなくなった
-40
-20
0
20
40
60
80
100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
学
習
値
学習回数
アルゴリズム①推移グラフ
-40
-20
0
20
40
60
80
100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
学
習
値
学習回数
変更後アルゴリズム②推移グラフ
C1
C2
C3
C4
C5
C6
C7
C8
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
追加実験 <考察>
2016/03/01 34SIGMUS 110
0
2
4
6
8
10
12
14
16
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
学習値
学習回数
変更後アルゴリズム②推移グラフ
C1
C2
C3
C4
C5
C6
C7
C8
学習値が全て
正にのみ偏っている
機械学習アルゴリズム
を修正する
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
今後の展望
2016/03/01 35SIGMUS 110
機械学習アルゴリズムの精度を上げ、TASS V2の実装を行う
TASS V2を用いることで
DTM作曲者に適切な音色づくり情報を
提示できるようになるかどうか検証を行う
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
今後の展望 <検証>
 目的
機械学習を用いて作成した検索フィルタにより、
ユーザごとに適切な音色づくり情報が提示されていることを
検証する
 手法
TASS V2をリリースし、ユーザのアクセスログを取得
2016/03/01 36SIGMUS 110
アクセスログから
徐々にユーザに最適化される検索フィルタにより
検索時間が減少するかどうかを検証する
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
参考文献
[1]斎藤明, “サービス・ドミナント・ロジックにおける価値共創概念と市場創造 : 「初音ミク」という市
場創造を中心として,” 情報文化学会誌, vol. 21, no. 1, pp. 29–36, Aug. 2014.
[2]齋藤創, 大場みち子, “メタデータを活用したDTM(DeskTop Music)での音づくり支援システムの構築,”
presented at the 情報処理学会第77回全国大会, 2015.
[3]曽根敏夫, 城戸健一, and 二村忠元, “音の評価に使われることばの分析,” 日本音響学会誌, vol.
18, no. 6, pp. 320–326, Nov. 1962.
[4]K. HEVNER, “experimental studies of the elements of expression in music,” American Journal of
Psychology, vol. 48, pp. 246–268, 1936.
[5]“オーディオ ライブラリ - YouTube.” [Online]. Available: https://www.youtube.com/audiolibrary/music.
[Accessed: 29-Dec-2015].
[6]千葉祐弥, “Q:さまざまな音響特徴量それぞれの使い方や意味を教えて下さい,” 音響学会ペディア.
[Online]. Available: http://abcpedia.acoustics.jp/acoustic_feature_2.pdf. [Accessed: 30-Dec-2015].
[7] “Web Audio API (日本語訳).” [Online]. Available: http://g200kg.github.io/web-audio-api-ja/. [Accessed:
30-Dec-2015].
[8]Hugh Rawlinson, Nevo Segal, and Jakub Fiala, “Meyda: an Audio Feature Extraction Library for the
Web Audio API,” in WAC 2015, Paris, 2015.
[9]宮澤幸希, “メル周波数ケプストラム(MFCC) - Miyazawa’s Pukiwiki 公開版,” Miyazawa’s Pukiwiki
公開版, 29-Mar-2013. [Online]. Available: http://shower.human.waseda.ac.jp/~m-
kouki/pukiwiki_public/66.html. [Accessed: 07-Jul-2015].
2016/03/01 37SIGMUS 110
背景 先行研究 目的・目標 課題
課題解決
アプローチ
システム実装 今後の展望 まとめ
まとめ
目的:DTMでの作曲を効率よくできるようにする
目標:利用者ごとに適切な音色づくり情報を提示する
TASS v2を構築する
手法:メタデータに含まれる音響特徴量を利用した
機械学習により、ユーザごとの検索フィルタを
作成する
予備実験:実際にユーザが入力する雰囲気の情報を収集
検証:システムを実際にリリースし、ユーザの
アクセスログからシステムの有効性を示す
2016/03/01 38SIGMUS 110

Weitere ähnliche Inhalte

Was ist angesagt?

Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...Shinnosuke Takamichi
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...Daichi Kitamura
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...Daichi Kitamura
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...Daichi Kitamura
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020Yuki Saito
 
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...Daichi Kitamura
 

Was ist angesagt? (9)

Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
 
Kameoka2016 miru08
Kameoka2016 miru08Kameoka2016 miru08
Kameoka2016 miru08
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020
 
Saito19asj_s
Saito19asj_sSaito19asj_s
Saito19asj_s
 
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
 

メタデータを活用した機械学習によるDTMでの音色づくりの効率化

  • 2. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ 発表の流れ 1. 背景 2. 先行研究 3. 目的・目標 4. 課題 5. 課題解決アプローチ 6. システム実装 7. 今後の展望 2016/03/01 2SIGMUS 110
  • 3. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ 背景 PC上での作曲(DTM:DeskTop Music)が発 展 2016/03/01 3SIGMUS 110 消費者生成系メディア(CGM:Consumer Generated Media)が発展[1] 作曲した作品を発表する場が成長 [1]斎藤明, “サービス・ドミナント・ロジックにおける価値共創概念と市場創造 : 「初音ミク」という市場創造を中心として,” 情報文化 学会誌, vol. 21, no. 1, pp. 29–36, Aug. 2014.
  • 4. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ 結果 DTMでの作曲プロセスで『音色づくり』に 時間を要している 背景 <ヒアリング> 2016/03/01 4SIGMUS 110 目的 : DTMでの作曲の問題点を調査 被験者 : DTM作曲者2名 (作曲プロセス例)
  • 5. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ 音色づくりの概要 2016/03/01 5SIGMUS 110 ※ソフトウェア音源:PC内の音源データ ※約35秒 ソフトウェア音源※をそのまま用いると 作りたい楽曲に適さない DTM作曲者は楽曲に適するように ソフトウェア音源のパラメータを調整する 音色づくり定義 ソフトウェア音源のパラメータを調整し 楽曲に適した音色を作成する作業
  • 6. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ 先行研究 1. 目的・目標・手法 2. システム概要 3. 実験・評価・考察 4. 問題点 2016/03/01 6SIGMUS 110 メタデータを活用したDTMでの 音色づくり支援システムの構築[2] [2]齋藤創, 大場みち子, “メタデータを活用したDTM(DeskTop Music)での音づくり支援システムの構築,” presented at the 情報処理学会第77回全国大会, 2015.
  • 7. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ 目的・目標・手法 2016/03/01 7SIGMUS 110 目的:DTM作曲者が意図する音色を効率よく作成できるように支援する 目標:音色の再現性を高める 音色づくり支援システムTASS(Timbre Adjustment Support System) を構築する 手法 : 音色づくり情報(音色の作成方法)にメタデータ※を付与し 効率的な検索を可能にする 音色づくり情報 オーディオファイル 説明用画像 音色づくり説明文 メタデータ Synth1(ソフトウェア音源) (ジャンル) エレクトロ (雰囲気) 明るい ※メタデータとは • データについての情報を記述したデータ • データの性質を的確に反映した検索が可能
  • 8. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ 一覧で表示し、任意の メタデータを登録可能にする 音色評価に用いられる語句[3]と その対義語対を用いる 音色づくり情報登録画面 TASS概要 <音色づくり情報の記録> 2016/03/01 DTM作曲者が作成した音色の音色づくり情報にメタデータを付与して登録 ジャンル・ソフトウェア音源 雰囲気 8SIGMUS 110 [3]曽根敏夫, 城戸健一, and 二村忠元, “音の評価に使われることばの分析,” 日本音響学会誌, vol. 18, no. 6, pp. 320–326, Nov. 1962.
  • 9. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ 音色づくり情報登録画面 TASS概要 <音色づくり情報の記録> 2016/03/01 ジャンル・ソフトウェア音源 9SIGMUS 110 ソフトウェア音源 DTM作曲者が作成した音色の音色づくり情報にメタデータを付与して登録 [3]曽根敏夫, 城戸健一, and 二村忠元, “音の評価に使われることばの分析,” 日本音響学会誌, vol. 18, no. 6, pp. 320–326, Nov. 1962. 一覧で表示し、任意の メタデータを登録可能にする 音色評価に用いられる語句[3]と その対義語対を用いる 雰囲気
  • 10. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ TASS概要 <音色づくり情報の検索> 2016/03/01 音色づくり情報検索画面 10SIGMUS 110 登録されたメタデータを利用して音色づくり情報を検索する
  • 11. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ TASS概要 <検索結果の表示> 2016/03/01 音色づくり情報検索結果画面 • 該当の音色づくり情報を一覧表示 • 音色づくり情報に登録されているオーディオファイルを連続再生 音色の確認を効率化 11SIGMUS 110
  • 12. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ 音色再現実験 2016/03/01 使用条件 事前に登録した Webサイトを利用 TASSを利用 再現対象の 音色 自作 実験1 実験3 他作 実験2 実験4 1. 事前に用意した自作、および他作の音色の再現実験 2. TASS利用と事前登録したWebサイト利用との対照実験 3. 実験後にアンケート 実験内容 対象 目的 ※各実験は15分間とする 音色再現の満足度が向上しているかどうかを検証 公立はこだて未来大学でDTMを行う学生7名 SIGMUS 110 12
  • 13. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ 実験評価 満足度の評価を6段階で評価し、実験ごとの平均をグラフ化 容易に再現でき アレンジできた 全く再利用 できなかった 2016/03/01 3.9 5.6 2.0 4.1 1 2 3 4 5 6 Web情報 TASS 音色再現の満足度の平均 自作の音色再現 他作の音色再現 被験者:7名 標準誤差 SIGMUS 110 13
  • 14. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ 実験考察 満足度の評価を6段階で評価し、実験ごとの平均をグラフ化 容易に再現でき アレンジできた 全く再利用 できなかった 2016/03/01 3.9 5.6 2.0 4.1 1 2 3 4 5 6 Web情報 TASS 音色再現の満足度の平均 自作の音色再現 他作の音色再現 被験者:7名 標準誤差 SIGMUS 110 14 TASSを用いることで、 満足度の高い音色再現が可能 所望の音色に近い音色づくり情報を より素早く見つけ、作成することが可能
  • 15. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ 問題点 2016/03/01 15SIGMUS 110 TASS やわらかい 同じ語句でも ユーザによって イメージする音色が異なる Bさん 雰囲気のメタデータを用いた適切な検索ができていない Aさん 欲しい音色がすぐ 見つかった! 欲しい音色が なかなか見つからない 検索上位 検索下位
  • 17. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ 目的・目標 2016/03/01 17SIGMUS 110 利用者ごとに適切な音色づくり情報を提示する TASS V2を構築する DTMでの作曲を効率よくできるようにする 目的 目標
  • 18. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ TASS 検索上位 検索下位 課題 2016/03/01 18-1SIGMUS 110 Aさん Bさん ユーザによって音色を 表現する語句が異なる 欲しい音色がすぐ 見つかった!
  • 19. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ TASS 検索上位 検索下位 課題 2016/03/01 18-2SIGMUS 110 Aさん Bさん ユーザによって音色を 表現する語句が異なる 欲しい音色がすぐ 見つかった! 欲しい音色が なかなか見つからない
  • 20. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ TASS 検索上位 検索下位 課題 2016/03/01 18-3SIGMUS 110 雰囲気だけでは 適切な音色づくり情報を 提示できていない Aさん Bさん ユーザによって音色を 表現する語句が異なる 欲しい音色がすぐ 見つかった! 欲しい音色が なかなか見つからない
  • 21. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ 検索結果 検索上位 検索下位 明るい TASS V2 Aさん Bさん 課題解決アプローチ 2016/03/01 19-1SIGMUS 110 「検索に用いた雰囲気」と「オーディオファイルの音響特徴量」を用いた機械学習によ り、 ユーザごとの雰囲気の認識を反映させた 検索フィルタを作成する
  • 22. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ 検索結果 検索上位 検索下位 TASS V2 陽気な Aさん Bさん 課題解決アプローチ 2016/03/01 19-2SIGMUS 110 「検索に用いた雰囲気」と「オーディオファイルの音響特徴量」を用いた機械学習によ り、 ユーザごとの雰囲気の認識を反映させた 検索フィルタを作成する 明るい
  • 23. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ 検索結果 検索上位 検索下位 検 索 フ ィ ル タ TASS V2 陽気な Aさん Bさん 課題解決アプローチ 2016/03/01 19-3SIGMUS 110 音色づくり情報 オーディオファイル 音色の作り方 メタデータ MFCC パワー スペクトラム 音響特徴量閲覧ユーザごとに機械学習 「検索に用いた雰囲気」と「オーディオファイルの音響特徴量」を用いた機械学習によ り、 ユーザごとの雰囲気の認識を反映させた 検索フィルタを作成する 明るい
  • 24. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ 検索結果 検索上位 検索下位 検 索 フ ィ ル タ TASS V2 陽気な Aさん Bさん 課題解決アプローチ 2016/03/01 19-4SIGMUS 110 音色づくり情報 オーディオファイル 音色の作り方 メタデータ MFCC パワー スペクトラム 音響特徴量閲覧ユーザごとに機械学習 「検索に用いた雰囲気」と「オーディオファイルの音響特徴量」を用いた機械学習によ り、 ユーザごとの雰囲気の認識を反映させた 検索フィルタを作成する 明るい
  • 25. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ システム実装 2016/03/01 20SIGMUS 110 課題解決アプローチを適用した TASS V2を実装する TASS V2 陽気な 機械学習 検 索 フ ィ ル タ パワースペクトラム 雰囲気 明るい 音響特徴量 MFCC 1 3 2
  • 26. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ 代表音色 検索に用いる雰囲気 2016/03/01 21SIGMUS 110 C8:Majestic Exalting C5:Delicate Light C7:Dramatic Sensational C6:Happy Cheerful C1:Serious Sacred C4:Calm Quiet C2:Dar k Sad C3:Dreamy Sentimental 音楽の心理的表現を形容する語句を クラスタリングした形容詞群 雰囲気の入力としてK.HEVNERの8つの形容詞群[4]を利用 それぞれのクラスタの 代表音色として YouTube オーディオライブラリ[5] にタグ付けされた音声を 用いる [4]K. HEVNER, “experimental studies of the elements of expression in music,” American Journal of Psychology, vol. 48, pp. 246–268, 1936. [5]“オーディオ ライブラリ - YouTube.” [Online]. Available: https://www.youtube.com/audiolibrary/music. [Accessed: 29-Dec-2015].
  • 27. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ 音響特徴量 2016/03/01 22SIGMUS 110 音響特徴量とは[6] をする場合に用いる音声の解析データ • 音声認識(声紋認識、楽器同定等) • 音の生データのままでは扱いきれない処理 本研究では以下の2つの特徴量を取得する 1. パワースペクトラム 2. MFCC [6]千葉祐弥, “Q:さまざまな音響特徴量それぞれの使い方や意味を教えて下さい,” 音響学会ペディア. [Online]. Available: http://abcpedia.acoustics.jp/acoustic_feature_2.pdf. [Accessed: 30-Dec-2015].
  • 28. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ 音響特徴量 <取得方法> 2016/03/01 23SIGMUS 110 Web Audio API[7]と 拡張ライブラリMeyda[8]を用いて 音響特徴量を動的に取得する必要がある 音響特徴量取得サンプル 音は動的に変化するため 音響特徴量も取得するタイミングによって 値が変化する 1. パワースペクトラム 2. MFCC を取得する [7] “Web Audio API (日本語訳).” [Online]. Available: http://g200kg.github.io/web-audio-api-ja/. [Accessed: 30-Dec-2015]. [8]Hugh Rawlinson, Nevo Segal, and Jakub Fiala, “Meyda: an Audio Feature Extraction Library for the Web Audio API,” in WAC 2015, Paris, 2015.
  • 29. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ 音響特徴量 <パワースペクトラム> 2016/03/01 24SIGMUS 110 パワースペクトラムとは[6] 0 s (時間) 0 h() 振 幅 音の大きさに関する特徴量であり、振幅の2乗平均で求められる 音響特徴量を取得する タイミングによって値が変化 取得するタイミングを決定 するためにパワースペクトラムを用いる 立ち上がり音 中間音
  • 30. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ 音響特徴量 <MFCC> 2016/03/01 25SIGMUS 110 MFCCとは[9] Mel Frequency Cepstral Coefficientの略称 人の聴覚特性を考慮しながらスペクトルの外形を表現する特徴量 音声認識や、楽器の同定に用いられる -3 -2 -1 0 1 2 3 0 5 10 15 20 MFCC Coefficient 例)音声認識の場合 12次元程度までの係数を利用 本研究では12次元までの係数を取得する [9]宮澤幸希, “メル周波数ケプストラム(MFCC) - Miyazawa’s Pukiwiki 公開版,” Miyazawa’s Pukiwiki 公開版, 29-Mar-2013. [Online]. Available: http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/66.html. [Accessed: 07-Jul-2015].
  • 31. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ 機械学習 2016/03/01 26SIGMUS 110 TASS V2 1. 2. 3. DTM作曲者 陽気な( ) 検索 閲覧 閲覧した音色づくり情報の音響特徴量と 検索に用いた雰囲気を利用して機械学習し 検索フィルタを作成する xC ( )m
  • 32. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ 機械学習 <アルゴリズム> 2016/03/01 27SIGMUS 110 x f = xP + m - xP{ } 1- 1 Cx - m{ }検索フィルタ(学習後) 検索フィルタ(学習前) (1) 機械学習アルゴリズム① TASS V2 1. 2. 3. DTM作曲者 陽気な( ) 検索 閲覧 xC ( )m 学習回数が10回以内で学習値が収束( )するように実装10 ³ abs x f - xP( )
  • 33. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ 予備実験 <目的・手法> 2016/03/01 28SIGMUS 110 機械学習アルゴリズムを確認するためのデータの取得 目的 手法 1. TASSに登録したオーディオファイル 20種を提示 2. オーディオファイルの雰囲気を HEVNERの形容詞群を利用して入力 3. 入力されたデータを用いて 機械学習アルゴリズム①を検討する 3名の被験者に対して以下の手順で実験 HEVNERの形容詞入力フォーム
  • 34. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ 0 20 40 60 80 100 C1 C2 C3 C4 C5 C6 C7 C8 20件中の1例 被験者A 被験者B 被験者C HEVNERの形容詞群 C1 C2 C3 C4 C5 C6 C7 C8 被 験 者 A ー ー ー ー 95 70 ー 10 B ー ー ー ー 85 80 35 45 C 25 ー ー ー ー ー 70 15 ※数値が高いほどHEVNERの形容詞群に当てはまる 予備実験 <結果・考察> 2016/03/01 29SIGMUS 110  それぞれの音色に対して ユーザの感じる雰囲気に差異があることを確認 提示音
  • 35. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ 予備実験 <結果・考察> -40 -20 0 20 40 60 80 100 1 2 3 4 5 6 7 8 9 1011121314151617181920 学 習 値 学習回数 アルゴリズム①値推移グラフ C1 C2 C3 C4 C5 C6 C7 C8 x f = xP + m - xP{ } 1- 1 Cx - m{ } (1) 分母が0に近づいたため 極端な値に変異した可能性がある 学習回数が増えるごとに 学習値が一定になる ※10回以内に振れ幅が10以下の場合成功 期待する結果 機械学習アルゴリズム①では 極端な値に変移した 結果 2016/03/01 30SIGMUS 110
  • 36. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ 追加実験 <変更アルゴリズム> 2016/03/01 31SIGMUS 110 TASS 1. 2. 3. DTM作曲者 陽気な( ) 検索( ) 閲覧 xC ( )mxI 検索時に入力された値を考慮し、極端な値を取らないアルゴリズムを利用 abs m( )< xC x f = xP + m - xP( )´ abs xC -m( ) xC ´ xI 100 の場合 (2) abs m( )³ xC x f = xP + m - xP( )´ xI 100 の場合 (3) 変更後アルゴリズム②
  • 37. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ 追加実験 <結果> 2016/03/01 32SIGMUS 110 予備実験で取得した入力データを用いて 変更後アルゴリズム②を検証 0 2 4 6 8 10 12 14 16 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 学 習 値 学習回数 変更後アルゴリズム②推移グラフ C1 C2 C3 C4 C5 C6 C7 C8
  • 38. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ 追加実験 <結果> 2016/03/01 33SIGMUS 110 予備実験で取得した入力データを用いて 変更後アルゴリズム②を検証 学習値が極端に変移しなくなった -40 -20 0 20 40 60 80 100 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 学 習 値 学習回数 アルゴリズム①推移グラフ -40 -20 0 20 40 60 80 100 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 学 習 値 学習回数 変更後アルゴリズム②推移グラフ C1 C2 C3 C4 C5 C6 C7 C8
  • 39. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ 追加実験 <考察> 2016/03/01 34SIGMUS 110 0 2 4 6 8 10 12 14 16 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 学習値 学習回数 変更後アルゴリズム②推移グラフ C1 C2 C3 C4 C5 C6 C7 C8 学習値が全て 正にのみ偏っている 機械学習アルゴリズム を修正する
  • 40. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ 今後の展望 2016/03/01 35SIGMUS 110 機械学習アルゴリズムの精度を上げ、TASS V2の実装を行う TASS V2を用いることで DTM作曲者に適切な音色づくり情報を 提示できるようになるかどうか検証を行う
  • 41. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ 今後の展望 <検証>  目的 機械学習を用いて作成した検索フィルタにより、 ユーザごとに適切な音色づくり情報が提示されていることを 検証する  手法 TASS V2をリリースし、ユーザのアクセスログを取得 2016/03/01 36SIGMUS 110 アクセスログから 徐々にユーザに最適化される検索フィルタにより 検索時間が減少するかどうかを検証する
  • 42. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ 参考文献 [1]斎藤明, “サービス・ドミナント・ロジックにおける価値共創概念と市場創造 : 「初音ミク」という市 場創造を中心として,” 情報文化学会誌, vol. 21, no. 1, pp. 29–36, Aug. 2014. [2]齋藤創, 大場みち子, “メタデータを活用したDTM(DeskTop Music)での音づくり支援システムの構築,” presented at the 情報処理学会第77回全国大会, 2015. [3]曽根敏夫, 城戸健一, and 二村忠元, “音の評価に使われることばの分析,” 日本音響学会誌, vol. 18, no. 6, pp. 320–326, Nov. 1962. [4]K. HEVNER, “experimental studies of the elements of expression in music,” American Journal of Psychology, vol. 48, pp. 246–268, 1936. [5]“オーディオ ライブラリ - YouTube.” [Online]. Available: https://www.youtube.com/audiolibrary/music. [Accessed: 29-Dec-2015]. [6]千葉祐弥, “Q:さまざまな音響特徴量それぞれの使い方や意味を教えて下さい,” 音響学会ペディア. [Online]. Available: http://abcpedia.acoustics.jp/acoustic_feature_2.pdf. [Accessed: 30-Dec-2015]. [7] “Web Audio API (日本語訳).” [Online]. Available: http://g200kg.github.io/web-audio-api-ja/. [Accessed: 30-Dec-2015]. [8]Hugh Rawlinson, Nevo Segal, and Jakub Fiala, “Meyda: an Audio Feature Extraction Library for the Web Audio API,” in WAC 2015, Paris, 2015. [9]宮澤幸希, “メル周波数ケプストラム(MFCC) - Miyazawa’s Pukiwiki 公開版,” Miyazawa’s Pukiwiki 公開版, 29-Mar-2013. [Online]. Available: http://shower.human.waseda.ac.jp/~m- kouki/pukiwiki_public/66.html. [Accessed: 07-Jul-2015]. 2016/03/01 37SIGMUS 110
  • 43. 背景 先行研究 目的・目標 課題 課題解決 アプローチ システム実装 今後の展望 まとめ まとめ 目的:DTMでの作曲を効率よくできるようにする 目標:利用者ごとに適切な音色づくり情報を提示する TASS v2を構築する 手法:メタデータに含まれる音響特徴量を利用した 機械学習により、ユーザごとの検索フィルタを 作成する 予備実験:実際にユーザが入力する雰囲気の情報を収集 検証:システムを実際にリリースし、ユーザの アクセスログからシステムの有効性を示す 2016/03/01 38SIGMUS 110

Hinweis der Redaktion

  1. 発表資料
  2. 本研究での背景と、昨年度研究の概要に関して〜
  3. 近年、YouTubeやニコニコ動画等の消費者生成系メディアが作曲した作品を公開する場として発展してきています。それに伴い、PC上で作曲を行うDTMが発展してきています。
  4. DTMでの作曲の問題点を調査する目的で、DTM作曲者2名にヒアリングを行いました。ヒアリングの結果、
  5. この画面はDTM 作曲者が用いるソフトウェア音源の1例です。ソフトウェア音源とはPC内の音源データであり、音源をそのまま用いると、作りたい楽曲に適さない事があります。そこで〜、本研究では〜
  6. それでは先行研究として、私が昨年行なった研究に関して、このような流れでご説明いたします。
  7. 先行研究の目的は〜。目的を達成するため、〜を目標としました。目標達成のため、DTM作曲者が音色を作成したさい、その〜
  8. TASSでは、音色づくり情報に対してメタデータを付与して登録することができます。ジャンルやソフトウェア音源のメタデータは
  9. 図のように一覧から選択することが可能です。また、一覧に存在しない場合は追加することもできます。 雰囲気のメタデータは、曽根らによる音色の評価に用いられる語句とその対義語を用います。また、雰囲気の尺度は程度を表現するため、間隔尺度を採用します。
  10. TASSでは登録された音色づくり情報をメタデータを活用して検索することができます。
  11. 検索結果では、該当の音色づくり情報を一覧表示します。また、一覧を表示している際、音色の確認をより効率よくするため、音色づくり情報内のオーディオファイルを連続再生できるようにいします。
  12. 先行研究では、TASSを用いることで、音色再現の満足度が向上しているかどうかを検証する目的で、4つの音色再現実験を行いました。各実験を15分間とし、事前に被験者および他の被験者が作成した音色をTASSを用いた時と、作成の際に登録したWebサイト時を用いた時との対照実験を行いました。実験の対応表はこのとおりです。実験後に各実験での音色再現の満足度やTASSに対する意見などのアンケート調査をしました。 Q:事前に登録したというのはどういうことか? A:本実験の前に、音づくりを行い、参考になったWebサイトを登録してもらうという実験を行った。その際に作成した音色と、登録されたWebサイトを用いて本実験を行なった。
  13. 音色再現を行い、作成した音色に満足できたかどうかをアンケートし結果を実験ごとの平均をグラフ化しました。[グラフの説明]この様に、自作、他作とも、TASSを用いることで音色再現の満足度の向上が確認できました。
  14. このことから、TASSを用いることで、満足度の高い音色再現が可能になり、意図する音色をより素早く作成することが可能になりました。
  15. 一方、このTASSの問題点として、同じ語句を用いていても、ユーザによってイメージする音色が異なります。例えば、「やわらかい」という雰囲気で検索した際、Aさんの場合だと検索上位にAさんが求める音色づくり情報があるため、ほしい音色をすぐに見つけることができます。一方、Bさんの場合、水色の音色をやわらかいと検索すると検索下位に求める音色づくり情報があるため、ほしい音色をなかなか見つけることができていません。これらのことから、現状のTASSでは雰囲気のメタデータを用いた適切な検索ができていないという問題点があります。 検索上位になっていない場合がある
  16. それではここから、先行研究を踏まえた本研究に関してご説明いたします。
  17. 本研究の目的は、DTMでの作曲を効率良くできるようにすることです。目的達成のため、利用者ごとに適切な音色づくり情報を提示するTASSv2を構築することを目標とします。
  18. 目標達成のための課題として、ユーザによって音色表現する語句が異なっているため、Aさん、Bさんが共に同じ音色を探している場合、Aさんが〜とすぐ欲しい音色を見つけたとしても、Bさんが〜という問題が起こります。この様に、現状のTASSでは〜
  19. 目標達成のための課題として、ユーザによって音色表現する語句が異なっているため、Aさん、Bさんが共に同じ音色を探している場合、Aさんが〜とすぐ欲しい音色を見つけたとしても、Bさんが〜という問題が起こります。この様に、現状のTASSでは〜
  20. 目標達成のための課題として、ユーザによって音色表現する語句が異なっているため、Aさん、Bさんが共に同じ音色を探している場合、Aさんが〜とすぐ欲しい音色を見つけたとしても、Bさんが〜という問題が起こります。この様に、現状のTASSでは〜
  21. 本研究ではこの課題を解決するため、検索に用いた雰囲気と、音色づくり情報として登録されたオーディオファイルの音響特徴量を用いて機械学習をし、ユーザごとの雰囲気の認識を反映させた検索フィルタを作成します。図にて解決アプローチの流れをご説明いたします。
  22. 本研究ではこの課題を解決するため、検索に用いた雰囲気と、音色づくり情報として登録されたオーディオファイルの音響特徴量を用いて機械学習をし、ユーザごとの雰囲気の認識を反映させた検索フィルタを作成します。図にて解決アプローチの流れをご説明いたします。
  23. 本研究ではこの課題を解決するため、検索に用いた雰囲気と、音色づくり情報として登録されたオーディオファイルの音響特徴量を用いて機械学習をし、ユーザごとの雰囲気の認識を反映させた検索フィルタを作成します。図にて解決アプローチの流れをご説明いたします。
  24. 本研究ではこの課題を解決するため、検索に用いた雰囲気と、音色づくり情報として登録されたオーディオファイルの音響特徴量を用いて機械学習をし、ユーザごとの雰囲気の認識を反映させた検索フィルタを作成します。図にて解決アプローチの流れをご説明いたします。
  25. 本研究では先程の課題解決アプローチを適用したTASS V2を実装します。システムの実装に関して、検索に用いる雰囲気、音響特徴量、機械学習に関してそれぞれこの順でご説明いたします。
  26. まず初めに検索に用いる雰囲気の入力に関して、本研究では音響研究などで広く用いられる、音楽の心理的〜〜また、本研究では各クラスタの代表音色として、YouTubeオーディオライブラリから、該当クラスタに合致するタグが付けられている音声を用います。
  27. 次に音響特徴量に関して説明します。音響特徴量とは、声紋認識や楽器の同定などの音声認識、および音の生データのままでは扱いきれない処理をする場合に用いる音声の解析データです。本研究では〜
  28. 音は〜、よって。本研究ではJavaScriptを用いて動的に音響特徴量を取得するため、Web Audio〜それではそれぞれの特徴量に関してご説明します。
  29. まず初めにパワースペクトラムについてご説明します。パワースペクトラムとは〜、本研究では取得するタイミングを〜また、本研究では音が鳴り始める立ち上がりの音と、音がなっている最中の中間音での音響特徴量を取得します。
  30. 次にMFCCに関してご説明します。mfccはメル周波数ケプストラムの略称で、人の聴覚特性を考慮しながらスペクトルの外形を表現する特徴量であり、音声認識や、楽器の同定に用いられます。
  31. 本研究では、DTM作曲者が音色づくり情報を検索した際、TASSv2はDTM作曲者が用いた雰囲気とDTM作曲者が閲覧した音色づくり情報の音響特徴量を用いて機械学習をし、作曲者に適した検索フィルタを作成します。
  32. アルゴリズムは(1)のとおりとなっています。また、本研究において、検索フィルタが10回学習をするまでに学習値が収束することを目標に実装します。
  33. 本研究では、機械学習アルゴリズム(1)を確認するためのデータを取得する目的で予備実験を行いました。手法として、〜
  34. 実験の結果の一例をご紹介いたします。各被験者に次のような音色を提示しました。すると、このような表に表すことができました。この表は行がそれぞれの被験者を表し、列がどのクラスタに該当するのかを表記しています。なお、数値が高いほどそのクラスタに当てはまっていることを示しています。この表をレーダーチャート化したものが左の図になります。また、今回ご紹介した音色だけではなく、他の19件でも同様に、ある音色に対して、ユーザが感じる雰囲気と表現するクラスタに差がある事を確認することができました。
  35. 次に、先ほどの数値を利用し、機械学習アルゴリズム(1)を用いて学習させた結果をグラフが学習値推移グラフです。縦軸がそれぞれの学習値で、横軸が学習回数を表しています。期待する結果としては学習回数が増えるごとに学習値が一定になることなのですが、グラフより、機械学習アルゴリズム(1)では極端な値に変異してしまいました。これは機械学習アルゴリズムの分母の部分が0に近づいたことで値が極端に大きくなってしまったことが原因だと考えられます。これらの結果から、本研究では機械学習アルゴリズムを再検討しました。
  36. 変更したアルゴリズムがこちらになります。変更した点として、場合分けを行い、極端な値を取らないように変更しました。また、検索時に入力される値を考慮し、値が大きいほど大きく変動するように変更しました。本研究ではこのアルゴリズムを用いて再度実験を行いました。
  37. 追加実験として、実験にて取得した値を用いて先ほど紹介したアルゴリズムを適用させたグラフが変更アルゴリズム(2)(3)推移グラフです。変更前のアルゴリズム(1)と比較するため、グラフの上限と下限を統一すると
  38. この様になり、変更後のアルゴリズムを用いることで、学習値が極端に変移しなくなりました。
  39. 一方、変更アルゴリズム(2)(3)では学習する値が偏ってしまった。変更前のアルゴリズムでは学習値が負の値にも変化できていたことから、今後は学習値の減少値を再検討し、機械学習アルゴリズムを再度修正します。 想定質問 アルゴリズムの変更の方針はどうする?
  40. 今後の展望として、現在のアルゴリズムを修正し、アルゴリズムの精度を向上させます。また、向上させたアルゴリズムを用いたシステムの実装を行おうと考えています。 最終的にはTASS V2を用いることでDTM作曲者に適切な音色づくり情報を提示できるようになるかどうかを検証します。
  41. 最後に最終的な検証方法に関してご説明します。本研究では機械学習を用いて作成した検索フィルタにより、ユーザごとに適切な音色づくり情報が提示されているかどうかを検証します。検証方法として、実際にTASS V2をリリースし、ユーザのアクセスログから、〜