SlideShare a Scribd company logo
1 of 23
北海道大学 大学院 情報科学研究科
情報理工学専攻 調和系工学
修士2年 細川 皓平
DCGANを用いたループ音源生成に関する基礎研究
A STUDY ON MUSIC LOOPS GENERATION USING DCGAN
1
研究背景
 現在の音楽制作
 DAW (Digital Audio Workstation) ソフトによ
るコンピュータでの制作が主流
 作曲,編曲,トラック制作,編集などの作業
 Orpheus [1]
 歌詞の韻律から旋律を生成
[1] 深山覚, et al. "Orpheus: 歌詞の韻律に基づいた自動作
曲システム." 情報処理学会研究報告音楽情報科学
(MUS) 2008.78 (2008-MUS-076) (2008): 179-184.
[2] Magenta, https://magenta.tensorflow.org/
 Magenta[2]
 RNN(Recurrent Neural Network) による
学習から自動作曲を実現
 作曲とは
 旋律の生成や楽譜の生成を指す
 どのような種類の音を使用するかは問
われない
 自動作曲とは
 主にMIDIデータの出力を目的とする
 → そのままでは聞くことができない
自動作曲
2
ループ音源による音楽制作
 ループ音源 (サンプルループ,loops など)
 数小節単位の短い音源
 楽器やキー,テンポごとに分類されている
 複数のループ音源を組み合わせてトラックを作成,それらにより音楽を制作
 DAWソフトに付属のもの,パッケージとして市販されているもの,フリーのものがある.
目的:ループ音源の自動生成
 既存のループ音源をもとにした,ループ音源そのものの生成
3
[4] Bakshi, Bhavik R., and George Stephanopoulos.
"Wave‐net: A multiresolution, hierarchical neural network
with localized learning." AIChE Journal 39.1 (1993): 57-
 生の音声データの学習,生成:WaveNet [4]
 音楽に関しては自然な音に聞こえるものの,
ジャンルや音量や音質に一貫性がない
関連研究
 GAN (Generative Adversarial Networks) [3]
 Generator (G) とDiscriminator (D) の2つの ネットワークからな
る
 Dは訓練データとGによる生成データとを二値分類
 Gは訓練データと同次元のデータを出力.このデータがDによっ
て訓練データと判別させるように学習
 Dは2つの誤差の和をパラメータの更新時の誤差
z [ 0, 1]
Generator
Discriminator
[3] Radford, Alec, Luke Metz, and Soumith Chintala.
"Unsupervised representation learning with deep
convolutional generative adversarial
networks." arXiv preprint arXiv:1511.06434 (2015).
入力データが
訓練データである確率
入力データを判別
Dに誤判定させるような
データを生成
[ 0, 1]
Dは1を教師として
誤差を算出
Dは0,Gは1を教師
として誤差を算出
訓練データに類似した
データの生成
Zが生成データの
特徴ベクトルとなる
生成データ
訓練データ
同一のネットワーク
100次元ベクト
ル
4
DCGAN (DEEP CONVOLUTIONAL GAN)
 GANによる画像生成:DCGAN[4]
 ネットワーク構造の工夫
 パラメータの最適化
[4] Radford, Alec, Luke Metz, and Soumith Chintala.
"Unsupervised representation learning with deep convolutiona
generative adversarial networks." arXiv preprint
同じ背景で違うものが写っている画像 特徴ベクトルの演算により,
画像の特徴の足し引きが可能
DCGANを使ったループ音源の生成
5
DCGANによるループ音源生成
 DCGANのループ音源への適用
 2次元から1次元への変更
 それに伴う適切なパラメータ,
学習手法の検証
 訓練データの次元数の統一
 予備実験:AutoEncoder
 Discriminator の出力層を100次元
に変更してEncoderとして扱い,
Generator をDecoder として学習
 訓練データを入力したときに復元
ができるかを検証
6
 生成データの目標
 訓練データの一部を使った新たな音源の生成
 波形画像
 ノイズが少なく,音がはっきり聞こえること
 振幅スペクトル
 出力にバリエーションがあること
 主成分分析,波形画像
→ 訓練データ数が少数の方が簡易
→ データ数 2から初め,徐々に増やしていく
ループ音源の前処理
 ループ音源
 サンプリング周波数:44.1 [kHz]
 ビット深度:16 [bit]
 WAVE 形式
 入力の際の次元の統一
 DCGAN:64 x 64 次元
 → 4096 次元に統一
 各ループ音源により長さが違う
 一小節ごとに分割
 サンプリング周波数の変換により,フ
レーム数を4096に
 出力も4096次元となる
 今回は2048 [Hz] で復元
7
DISCRIMINATOR
c
0
c
1
b
n
1
c
2
b
n
2
c
3
b
n
3
f
c
[0, 1]ループ
音源
2048
x
128
1024
x
256
512
X
512
262144
256
x
102
4
次元数
• bn: バッチ正規化層
• fc: 全結合層
reshap
e
• c : 畳み込み層
• カーネルサイズ: 5
• ストライド: 2
• パディング: 1
活性化関数:Relu
(出力層のみ sigmoid)
b
n
0
4096
x
1
1
8
チャネル数
フレーム数
GENERATOR
f
c
b
n
0
d
c
1
b
n
1
d
c
2
b
n
2
d
c
3
b
n
3
d
c
4
ループ音源Z
100
256
x
102
4
512
X
512
2048
x
128
1024
x
256
409
6
x
1
次元数
• fc: 全結合層
• bn: バッチ正規化
層
reshap
e• dc : 逆畳み込み層
• カーネルサイズ: 5
• ストライド: 2
• パディング: 1
活性化関数:Leaky Relu
(出力層のみ tanh)
26214
4
9
チャネル数
フレーム数
各層の計算
 ループ音源の畳込み
 入力 𝑥𝑖,𝑘 2048 x 128
 カーネルサイズ J = 5
 ストライド s = 2
 パディング p = 1
 出力 𝑦𝑙,𝑚 1024 x 256
2048 +2 (パディング)
各要素の周りを
(ストライド -1) でパディング
ストライド1で畳み込み
アンプーリング
10240 0
128
256
カーネル数:256
ストライド: 2
𝑦𝑙,𝑚 =
𝑘=0
K−1
𝑖=𝑠𝑙−1
𝐼−1+𝑝
𝑗=0
𝐽−1
𝒘𝑗,𝑘 𝑥(𝑖+𝑗)𝑘 + 𝒃 𝑗
10
 ループ音源の逆畳込み
 入力 𝑥𝑖,𝑘 1024 x 256
 カーネルサイズ J = 5
 ストライド s = 2
 パディング p = 1
 出力 𝑦𝑙,𝑚 2048 x 128
102
4
256
0 0 0 0 0 256
2048 +2 (パディング) 2048
カーネル数:128
128
各層の計算,最適化手法
 バッチ正規化
 各ミニバッチで特徴ごとに独立して,平
均0,分散1 の正規化を行う
 Dropout,プーリングに変わる有効な手段
 最適化手法:Adam [5]
𝑚0 = 𝑣0 = 0
𝑚 𝑡 = 𝛽1𝑚 𝑡−1 + 1 − 𝛽1 𝛻𝑄𝑖 𝑊
𝑣𝑖
= 𝛽2𝑣𝑡−1 + 1 − 𝛽2 𝛻𝑄𝑖 w ∘ 𝛻𝑄𝑖 w
𝑚 𝑡 =
𝑚 𝑡
1 − 𝛽1 𝑡
𝑣 𝑡 =
𝑣 𝑡
1 − 𝛽2 𝑡
𝑤𝑡 = 𝑤𝑡−1 − 𝛼
𝑚 𝑡
𝑣 𝑡−𝜀
 推奨値:α=0.001,β1=0.9,
β2=0.999,ε=10e-8
 DCGAN: α=0.0002,β1=0.5
 学習の安定化のため
 誤差関数 :交差エントロピー
 ミニバッチサイズがm, 各ミニバッチのある特
徴をxとし,B={x_i...x_i} とする
 𝑦𝑖が出力,𝛾 = 10−5
,𝛽 = 0.9はパラメータ
11
DCGANによるループ音源生成
 DCGANによる学習,生成
 生成データの目標
 訓練データの一部を使った新たな音源の生成
 ノイズが少なく,音がはっきり聞こえること
 出力にバリエーションがあること
 データ数は2,4
 エレキベースのループ音源
 単音が主体,単調なもの
 同一のキー,テンポ
 64 サンプルを生成し,比較
12
2つのデータによる学習(学習の推移)
 50000エポック
 一方のネットワークが最適化されると一方の誤差が大きくなる対立関係が見られる
 互いに収束することなく,これが繰り返されている
epoch
13
14
主成分分析:4096次元 → 2次元
訓練データ
テストデータ
15
訓練データ
テストデータ
16訓練データ1
訓練データ0
生成データ • 外観はほぼデータ0
• 低い周波数成分は
強く出ている
→ ベースの音が強
調されている
17
訓練データ
テストデータ
18訓練データ1
訓練データ0
生成データ
• それぞれの
データの1音
から2つの音
を発音
2データでの学習,生成
 訓練データの一部を使った新たな音源の生成
 区間ごとにいずれかの訓練データを反映させている
 ノイズが少なく,音がはっきり聞こえること
 訓練データと比較するとノイズは多少感じる
 ベースの音に関しては強調して発音されている
 出力にバリエーションがあること
 1音ごとの組み合わせで作られているもの
 1音を分解して組み合わせているもの
 これらによって多様な出力が得られた
19
4つのデータによる学習(学習の推移)
 50000エポック
epoch
20
4データ 21
訓練データ
テストデータ
22
生成データ
まとめ
 DCGANを使ったループ音源の学習,生成を行った.
 データ数は2,4で行い,それらの生成データは
 一定の区間ごとに訓練データとの一致がみられ,それらの組み合わせにより訓練
データにないデータを生成することができた
 訓練データとくらべてノイズが含まれるものの,演奏自体ははっきりと認識するこ
とができた
 データ数を増やすと,音が重なり合い,不自然に聞こえる部分もあった
 今後の課題
 より多くのデータを使った学習
 高音質のデータによる学習
23
学会業績
• 細川 皓平, 川村 秀憲, DCGANによるループ音源の学習と生成, WSSIT2017, 留寿都, 2017(予定)
• 細川 皓平, 川村 秀憲, ディープラーニングによるループ音源の学習と生成, 平成28年度電気・情報関係学会北海道支部連合大会,
札幌 2016
• 細川 皓平, 川村 秀憲, 畳み込みニューラルネットワークを用いた人物画像の認識と評価, 情報処理学会第78回全国大会, 神奈川,
2M-01, 2016
• 細川 皓平, 川村 秀憲, 畳み込みニューラルネットワークを用いた人物画像の同一性判定,情報処理北海道シンポジウム2015, 札幌,
AM29, 2015

More Related Content

Similar to hosokawa m

[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders
[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders
[DL輪読会]Monaural Audio Source Separationusing Variational AutoencodersDeep Learning JP
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響NU_I_TODALAB
 
Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Icassp2018 発表参加報告 FFTNet, Tactron2紹介Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Icassp2018 発表参加報告 FFTNet, Tactron2紹介Kentaro Tachibana
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...Daichi Kitamura
 
独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展Kitamura Laboratory
 
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...Deep Learning JP
 
深層学習入門 スライド
深層学習入門 スライド  深層学習入門 スライド
深層学習入門 スライド swamp Sawa
 
招待講演(鶴岡)
招待講演(鶴岡)招待講演(鶴岡)
招待講演(鶴岡)nozomuhamada
 

Similar to hosokawa m (10)

[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders
[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders
[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Icassp2018 発表参加報告 FFTNet, Tactron2紹介Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Icassp2018 発表参加報告 FFTNet, Tactron2紹介
 
音声認識と深層学習
音声認識と深層学習音声認識と深層学習
音声認識と深層学習
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
 
独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展
 
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
 
SeRanet
SeRanetSeRanet
SeRanet
 
深層学習入門 スライド
深層学習入門 スライド  深層学習入門 スライド
深層学習入門 スライド
 
招待講演(鶴岡)
招待講演(鶴岡)招待講演(鶴岡)
招待講演(鶴岡)
 

More from harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也harmonylab
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究harmonylab
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...harmonylab
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究harmonylab
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...harmonylab
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backboneharmonylab
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Modelsharmonylab
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimationharmonylab
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Modelsharmonylab
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimationharmonylab
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Modelsharmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究harmonylab
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究harmonylab
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究harmonylab
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究harmonylab
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究harmonylab
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究harmonylab
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...harmonylab
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究harmonylab
 

More from harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 

Recently uploaded

[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 

Recently uploaded (9)

[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 

hosokawa m

  • 1. 北海道大学 大学院 情報科学研究科 情報理工学専攻 調和系工学 修士2年 細川 皓平 DCGANを用いたループ音源生成に関する基礎研究 A STUDY ON MUSIC LOOPS GENERATION USING DCGAN 1
  • 2. 研究背景  現在の音楽制作  DAW (Digital Audio Workstation) ソフトによ るコンピュータでの制作が主流  作曲,編曲,トラック制作,編集などの作業  Orpheus [1]  歌詞の韻律から旋律を生成 [1] 深山覚, et al. "Orpheus: 歌詞の韻律に基づいた自動作 曲システム." 情報処理学会研究報告音楽情報科学 (MUS) 2008.78 (2008-MUS-076) (2008): 179-184. [2] Magenta, https://magenta.tensorflow.org/  Magenta[2]  RNN(Recurrent Neural Network) による 学習から自動作曲を実現  作曲とは  旋律の生成や楽譜の生成を指す  どのような種類の音を使用するかは問 われない  自動作曲とは  主にMIDIデータの出力を目的とする  → そのままでは聞くことができない 自動作曲 2
  • 3. ループ音源による音楽制作  ループ音源 (サンプルループ,loops など)  数小節単位の短い音源  楽器やキー,テンポごとに分類されている  複数のループ音源を組み合わせてトラックを作成,それらにより音楽を制作  DAWソフトに付属のもの,パッケージとして市販されているもの,フリーのものがある. 目的:ループ音源の自動生成  既存のループ音源をもとにした,ループ音源そのものの生成 3 [4] Bakshi, Bhavik R., and George Stephanopoulos. "Wave‐net: A multiresolution, hierarchical neural network with localized learning." AIChE Journal 39.1 (1993): 57-  生の音声データの学習,生成:WaveNet [4]  音楽に関しては自然な音に聞こえるものの, ジャンルや音量や音質に一貫性がない
  • 4. 関連研究  GAN (Generative Adversarial Networks) [3]  Generator (G) とDiscriminator (D) の2つの ネットワークからな る  Dは訓練データとGによる生成データとを二値分類  Gは訓練データと同次元のデータを出力.このデータがDによっ て訓練データと判別させるように学習  Dは2つの誤差の和をパラメータの更新時の誤差 z [ 0, 1] Generator Discriminator [3] Radford, Alec, Luke Metz, and Soumith Chintala. "Unsupervised representation learning with deep convolutional generative adversarial networks." arXiv preprint arXiv:1511.06434 (2015). 入力データが 訓練データである確率 入力データを判別 Dに誤判定させるような データを生成 [ 0, 1] Dは1を教師として 誤差を算出 Dは0,Gは1を教師 として誤差を算出 訓練データに類似した データの生成 Zが生成データの 特徴ベクトルとなる 生成データ 訓練データ 同一のネットワーク 100次元ベクト ル 4
  • 5. DCGAN (DEEP CONVOLUTIONAL GAN)  GANによる画像生成:DCGAN[4]  ネットワーク構造の工夫  パラメータの最適化 [4] Radford, Alec, Luke Metz, and Soumith Chintala. "Unsupervised representation learning with deep convolutiona generative adversarial networks." arXiv preprint 同じ背景で違うものが写っている画像 特徴ベクトルの演算により, 画像の特徴の足し引きが可能 DCGANを使ったループ音源の生成 5
  • 6. DCGANによるループ音源生成  DCGANのループ音源への適用  2次元から1次元への変更  それに伴う適切なパラメータ, 学習手法の検証  訓練データの次元数の統一  予備実験:AutoEncoder  Discriminator の出力層を100次元 に変更してEncoderとして扱い, Generator をDecoder として学習  訓練データを入力したときに復元 ができるかを検証 6  生成データの目標  訓練データの一部を使った新たな音源の生成  波形画像  ノイズが少なく,音がはっきり聞こえること  振幅スペクトル  出力にバリエーションがあること  主成分分析,波形画像 → 訓練データ数が少数の方が簡易 → データ数 2から初め,徐々に増やしていく
  • 7. ループ音源の前処理  ループ音源  サンプリング周波数:44.1 [kHz]  ビット深度:16 [bit]  WAVE 形式  入力の際の次元の統一  DCGAN:64 x 64 次元  → 4096 次元に統一  各ループ音源により長さが違う  一小節ごとに分割  サンプリング周波数の変換により,フ レーム数を4096に  出力も4096次元となる  今回は2048 [Hz] で復元 7
  • 8. DISCRIMINATOR c 0 c 1 b n 1 c 2 b n 2 c 3 b n 3 f c [0, 1]ループ 音源 2048 x 128 1024 x 256 512 X 512 262144 256 x 102 4 次元数 • bn: バッチ正規化層 • fc: 全結合層 reshap e • c : 畳み込み層 • カーネルサイズ: 5 • ストライド: 2 • パディング: 1 活性化関数:Relu (出力層のみ sigmoid) b n 0 4096 x 1 1 8 チャネル数 フレーム数
  • 9. GENERATOR f c b n 0 d c 1 b n 1 d c 2 b n 2 d c 3 b n 3 d c 4 ループ音源Z 100 256 x 102 4 512 X 512 2048 x 128 1024 x 256 409 6 x 1 次元数 • fc: 全結合層 • bn: バッチ正規化 層 reshap e• dc : 逆畳み込み層 • カーネルサイズ: 5 • ストライド: 2 • パディング: 1 活性化関数:Leaky Relu (出力層のみ tanh) 26214 4 9 チャネル数 フレーム数
  • 10. 各層の計算  ループ音源の畳込み  入力 𝑥𝑖,𝑘 2048 x 128  カーネルサイズ J = 5  ストライド s = 2  パディング p = 1  出力 𝑦𝑙,𝑚 1024 x 256 2048 +2 (パディング) 各要素の周りを (ストライド -1) でパディング ストライド1で畳み込み アンプーリング 10240 0 128 256 カーネル数:256 ストライド: 2 𝑦𝑙,𝑚 = 𝑘=0 K−1 𝑖=𝑠𝑙−1 𝐼−1+𝑝 𝑗=0 𝐽−1 𝒘𝑗,𝑘 𝑥(𝑖+𝑗)𝑘 + 𝒃 𝑗 10  ループ音源の逆畳込み  入力 𝑥𝑖,𝑘 1024 x 256  カーネルサイズ J = 5  ストライド s = 2  パディング p = 1  出力 𝑦𝑙,𝑚 2048 x 128 102 4 256 0 0 0 0 0 256 2048 +2 (パディング) 2048 カーネル数:128 128
  • 11. 各層の計算,最適化手法  バッチ正規化  各ミニバッチで特徴ごとに独立して,平 均0,分散1 の正規化を行う  Dropout,プーリングに変わる有効な手段  最適化手法:Adam [5] 𝑚0 = 𝑣0 = 0 𝑚 𝑡 = 𝛽1𝑚 𝑡−1 + 1 − 𝛽1 𝛻𝑄𝑖 𝑊 𝑣𝑖 = 𝛽2𝑣𝑡−1 + 1 − 𝛽2 𝛻𝑄𝑖 w ∘ 𝛻𝑄𝑖 w 𝑚 𝑡 = 𝑚 𝑡 1 − 𝛽1 𝑡 𝑣 𝑡 = 𝑣 𝑡 1 − 𝛽2 𝑡 𝑤𝑡 = 𝑤𝑡−1 − 𝛼 𝑚 𝑡 𝑣 𝑡−𝜀  推奨値:α=0.001,β1=0.9, β2=0.999,ε=10e-8  DCGAN: α=0.0002,β1=0.5  学習の安定化のため  誤差関数 :交差エントロピー  ミニバッチサイズがm, 各ミニバッチのある特 徴をxとし,B={x_i...x_i} とする  𝑦𝑖が出力,𝛾 = 10−5 ,𝛽 = 0.9はパラメータ 11
  • 12. DCGANによるループ音源生成  DCGANによる学習,生成  生成データの目標  訓練データの一部を使った新たな音源の生成  ノイズが少なく,音がはっきり聞こえること  出力にバリエーションがあること  データ数は2,4  エレキベースのループ音源  単音が主体,単調なもの  同一のキー,テンポ  64 サンプルを生成し,比較 12
  • 16. 16訓練データ1 訓練データ0 生成データ • 外観はほぼデータ0 • 低い周波数成分は 強く出ている → ベースの音が強 調されている
  • 19. 2データでの学習,生成  訓練データの一部を使った新たな音源の生成  区間ごとにいずれかの訓練データを反映させている  ノイズが少なく,音がはっきり聞こえること  訓練データと比較するとノイズは多少感じる  ベースの音に関しては強調して発音されている  出力にバリエーションがあること  1音ごとの組み合わせで作られているもの  1音を分解して組み合わせているもの  これらによって多様な出力が得られた 19
  • 23. まとめ  DCGANを使ったループ音源の学習,生成を行った.  データ数は2,4で行い,それらの生成データは  一定の区間ごとに訓練データとの一致がみられ,それらの組み合わせにより訓練 データにないデータを生成することができた  訓練データとくらべてノイズが含まれるものの,演奏自体ははっきりと認識するこ とができた  データ数を増やすと,音が重なり合い,不自然に聞こえる部分もあった  今後の課題  より多くのデータを使った学習  高音質のデータによる学習 23 学会業績 • 細川 皓平, 川村 秀憲, DCGANによるループ音源の学習と生成, WSSIT2017, 留寿都, 2017(予定) • 細川 皓平, 川村 秀憲, ディープラーニングによるループ音源の学習と生成, 平成28年度電気・情報関係学会北海道支部連合大会, 札幌 2016 • 細川 皓平, 川村 秀憲, 畳み込みニューラルネットワークを用いた人物画像の認識と評価, 情報処理学会第78回全国大会, 神奈川, 2M-01, 2016 • 細川 皓平, 川村 秀憲, 畳み込みニューラルネットワークを用いた人物画像の同一性判定,情報処理北海道シンポジウム2015, 札幌, AM29, 2015