More Related Content
Similar to hosokawa m (10)
More from harmonylab (20)
hosokawa m
- 2. 研究背景
現在の音楽制作
DAW (Digital Audio Workstation) ソフトによ
るコンピュータでの制作が主流
作曲,編曲,トラック制作,編集などの作業
Orpheus [1]
歌詞の韻律から旋律を生成
[1] 深山覚, et al. "Orpheus: 歌詞の韻律に基づいた自動作
曲システム." 情報処理学会研究報告音楽情報科学
(MUS) 2008.78 (2008-MUS-076) (2008): 179-184.
[2] Magenta, https://magenta.tensorflow.org/
Magenta[2]
RNN(Recurrent Neural Network) による
学習から自動作曲を実現
作曲とは
旋律の生成や楽譜の生成を指す
どのような種類の音を使用するかは問
われない
自動作曲とは
主にMIDIデータの出力を目的とする
→ そのままでは聞くことができない
自動作曲
2
- 3. ループ音源による音楽制作
ループ音源 (サンプルループ,loops など)
数小節単位の短い音源
楽器やキー,テンポごとに分類されている
複数のループ音源を組み合わせてトラックを作成,それらにより音楽を制作
DAWソフトに付属のもの,パッケージとして市販されているもの,フリーのものがある.
目的:ループ音源の自動生成
既存のループ音源をもとにした,ループ音源そのものの生成
3
[4] Bakshi, Bhavik R., and George Stephanopoulos.
"Wave‐net: A multiresolution, hierarchical neural network
with localized learning." AIChE Journal 39.1 (1993): 57-
生の音声データの学習,生成:WaveNet [4]
音楽に関しては自然な音に聞こえるものの,
ジャンルや音量や音質に一貫性がない
- 4. 関連研究
GAN (Generative Adversarial Networks) [3]
Generator (G) とDiscriminator (D) の2つの ネットワークからな
る
Dは訓練データとGによる生成データとを二値分類
Gは訓練データと同次元のデータを出力.このデータがDによっ
て訓練データと判別させるように学習
Dは2つの誤差の和をパラメータの更新時の誤差
z [ 0, 1]
Generator
Discriminator
[3] Radford, Alec, Luke Metz, and Soumith Chintala.
"Unsupervised representation learning with deep
convolutional generative adversarial
networks." arXiv preprint arXiv:1511.06434 (2015).
入力データが
訓練データである確率
入力データを判別
Dに誤判定させるような
データを生成
[ 0, 1]
Dは1を教師として
誤差を算出
Dは0,Gは1を教師
として誤差を算出
訓練データに類似した
データの生成
Zが生成データの
特徴ベクトルとなる
生成データ
訓練データ
同一のネットワーク
100次元ベクト
ル
4
- 5. DCGAN (DEEP CONVOLUTIONAL GAN)
GANによる画像生成:DCGAN[4]
ネットワーク構造の工夫
パラメータの最適化
[4] Radford, Alec, Luke Metz, and Soumith Chintala.
"Unsupervised representation learning with deep convolutiona
generative adversarial networks." arXiv preprint
同じ背景で違うものが写っている画像 特徴ベクトルの演算により,
画像の特徴の足し引きが可能
DCGANを使ったループ音源の生成
5
- 6. DCGANによるループ音源生成
DCGANのループ音源への適用
2次元から1次元への変更
それに伴う適切なパラメータ,
学習手法の検証
訓練データの次元数の統一
予備実験:AutoEncoder
Discriminator の出力層を100次元
に変更してEncoderとして扱い,
Generator をDecoder として学習
訓練データを入力したときに復元
ができるかを検証
6
生成データの目標
訓練データの一部を使った新たな音源の生成
波形画像
ノイズが少なく,音がはっきり聞こえること
振幅スペクトル
出力にバリエーションがあること
主成分分析,波形画像
→ 訓練データ数が少数の方が簡易
→ データ数 2から初め,徐々に増やしていく
- 7. ループ音源の前処理
ループ音源
サンプリング周波数:44.1 [kHz]
ビット深度:16 [bit]
WAVE 形式
入力の際の次元の統一
DCGAN:64 x 64 次元
→ 4096 次元に統一
各ループ音源により長さが違う
一小節ごとに分割
サンプリング周波数の変換により,フ
レーム数を4096に
出力も4096次元となる
今回は2048 [Hz] で復元
7
- 10. 各層の計算
ループ音源の畳込み
入力 𝑥𝑖,𝑘 2048 x 128
カーネルサイズ J = 5
ストライド s = 2
パディング p = 1
出力 𝑦𝑙,𝑚 1024 x 256
2048 +2 (パディング)
各要素の周りを
(ストライド -1) でパディング
ストライド1で畳み込み
アンプーリング
10240 0
128
256
カーネル数:256
ストライド: 2
𝑦𝑙,𝑚 =
𝑘=0
K−1
𝑖=𝑠𝑙−1
𝐼−1+𝑝
𝑗=0
𝐽−1
𝒘𝑗,𝑘 𝑥(𝑖+𝑗)𝑘 + 𝒃 𝑗
10
ループ音源の逆畳込み
入力 𝑥𝑖,𝑘 1024 x 256
カーネルサイズ J = 5
ストライド s = 2
パディング p = 1
出力 𝑦𝑙,𝑚 2048 x 128
102
4
256
0 0 0 0 0 256
2048 +2 (パディング) 2048
カーネル数:128
128
- 11. 各層の計算,最適化手法
バッチ正規化
各ミニバッチで特徴ごとに独立して,平
均0,分散1 の正規化を行う
Dropout,プーリングに変わる有効な手段
最適化手法:Adam [5]
𝑚0 = 𝑣0 = 0
𝑚 𝑡 = 𝛽1𝑚 𝑡−1 + 1 − 𝛽1 𝛻𝑄𝑖 𝑊
𝑣𝑖
= 𝛽2𝑣𝑡−1 + 1 − 𝛽2 𝛻𝑄𝑖 w ∘ 𝛻𝑄𝑖 w
𝑚 𝑡 =
𝑚 𝑡
1 − 𝛽1 𝑡
𝑣 𝑡 =
𝑣 𝑡
1 − 𝛽2 𝑡
𝑤𝑡 = 𝑤𝑡−1 − 𝛼
𝑚 𝑡
𝑣 𝑡−𝜀
推奨値:α=0.001,β1=0.9,
β2=0.999,ε=10e-8
DCGAN: α=0.0002,β1=0.5
学習の安定化のため
誤差関数 :交差エントロピー
ミニバッチサイズがm, 各ミニバッチのある特
徴をxとし,B={x_i...x_i} とする
𝑦𝑖が出力,𝛾 = 10−5
,𝛽 = 0.9はパラメータ
11
- 23. まとめ
DCGANを使ったループ音源の学習,生成を行った.
データ数は2,4で行い,それらの生成データは
一定の区間ごとに訓練データとの一致がみられ,それらの組み合わせにより訓練
データにないデータを生成することができた
訓練データとくらべてノイズが含まれるものの,演奏自体ははっきりと認識するこ
とができた
データ数を増やすと,音が重なり合い,不自然に聞こえる部分もあった
今後の課題
より多くのデータを使った学習
高音質のデータによる学習
23
学会業績
• 細川 皓平, 川村 秀憲, DCGANによるループ音源の学習と生成, WSSIT2017, 留寿都, 2017(予定)
• 細川 皓平, 川村 秀憲, ディープラーニングによるループ音源の学習と生成, 平成28年度電気・情報関係学会北海道支部連合大会,
札幌 2016
• 細川 皓平, 川村 秀憲, 畳み込みニューラルネットワークを用いた人物画像の認識と評価, 情報処理学会第78回全国大会, 神奈川,
2M-01, 2016
• 細川 皓平, 川村 秀憲, 畳み込みニューラルネットワークを用いた人物画像の同一性判定,情報処理北海道シンポジウム2015, 札幌,
AM29, 2015