SlideShare a Scribd company logo
1 of 22
Download to read offline
深層学習を深く学習するための基礎
高道 慎之介 (東大院・情報理工)
日本音響学会 2017年 秋季研究発表会
ビギナーズセミナー
/18
概要
 背景:その強力さが叫ばれて久しい深層学習技術
– LSTM, CNN, Seq2Seq, CTC, GAN, AE, MemoryNet, SuperNN, etc.
 問題:名前は聞いたことあるけど,中身をよく知らない…
– (研究で使ってるけど,ぶっちゃけ中身をよく知らない)
 本発表:
– “名前は聞いたことある” から “仕組みがちょっとわかる” へ
– 信号処理とも絡めつつ概要を紹介
2
このスライドはslideshareにアップロード済みです.
(twitter: #asj2017a か 高道HPを参照)
Feed-Forward NN (Neural Network)
3
/18
線形変換+非線形活性化関数による変換
4
𝒚 = 𝒇 𝑾 𝒙 + 𝒃
行列 バイアス非線形
活性化関数 回転・伸縮 シフト
𝒙 𝒚
Forward
𝑾 𝒃
𝒇 ⋅ =
ReLU ⋅
𝜕(𝑾𝒙 + 𝒃)
𝜕𝒙
= 𝑾⊤ Backward (あとで説明)𝒙 の散布図
/18
 前のページの構造 (single-layer NN) を積み重ねる!
– 複数のSingle-layer NN から成る関数
 Forward propagationを式で書くと…
Feed-Forward NN
5
⋯
⋯
⋯
⋯
𝒙 𝒚
𝒉1 = 𝒇1 𝑾1 𝒙 + 𝒃1 𝒚 = 𝒇 𝐿 𝑾L 𝒉 𝐿−1 + 𝒃 𝐿
𝒉1 𝒉 𝐿−1
𝒚 = 𝒇 𝐿 𝑾L 𝒇 𝐿−1 𝑾L−𝟏 … 𝒇1 𝑾1 𝒙 + 𝒃1 … + 𝒃 𝐿−1 + 𝒃 𝐿
/18
 推定値 𝒚 と正解値 𝒚 から計算される損失関数 𝐿 ⋅ を最小化
– 二乗誤差 𝐿 𝐲, 𝒚 = 𝒚 − 𝒚 ⊤ 𝒚 − 𝒚
 損失関数を最小化するようにモデルパラメータ 𝑾, 𝒃 を更新
– 勾配法がしばしば使われる(𝛼は学習係数 [AdaGradなどを使用])
モデルパラメータの学習
6
𝑾1 ← 𝑾1 − 𝛼
𝜕𝐿 𝐲, 𝒚
𝜕𝑾1
⋯
⋯
⋯
⋯
𝒙 𝒚𝒉1 𝒉 𝐿−1
𝒚
𝐿 ⋅ 𝐿 𝐲, 𝒚
𝜕𝐿 𝐲, 𝒚 𝜕𝒚𝜕𝒚 𝜕𝒉 𝐿−1𝜕𝒉1 𝜕𝑾1
合成関数なので,各関数の
微分の積として得られる
リカレント構造 & 畳み込み構造
7
/18
RNN (Recurrent NN):
リカレント構造を持ったNN
 NNの出力の一部を入力に戻すNN (LSTMは,これの派生)
– 構造情報など(例えば音声の時間構造)の依存性を記憶
8
𝒙 𝑡−2
⋯
𝒚 𝑡−2
𝒚 𝑡−2 𝐿 ⋅
Loss 𝑡−2
𝒙 𝑡−1
⋯
𝒚 𝑡−1
𝒚 𝑡−1 𝐿 ⋅
Loss 𝑡−1
𝒙 𝒕
⋯
𝒚 𝑡
𝒚 𝑡 𝐿 ⋅
Loss 𝑡
𝒙 𝑡+1
⋯
𝒚 𝑡+1
𝒚 𝑡+1 𝐿 ⋅
Loss 𝑡+1
/18
BPTT: Back propagation Through Time
 当該時間におけるbackpropagationを,過去の時間に伝播
– 一定時間でbackwardを打ち切る方法をTruncated BPTTという
9
𝒙 𝑡−2
⋯
𝒚 𝑡−2
𝒚 𝑡−2 𝐿 ⋅
Loss 𝑡−2
𝒙 𝑡−1
⋯
𝒚 𝑡−1
𝒚 𝑡−1 𝐿 ⋅
Loss 𝑡−1
𝒙 𝒕
⋯
𝒚 𝑡
𝒚 𝑡 𝐿 ⋅
Loss 𝑡
𝒙 𝑡+1
⋯
𝒚 𝑡+1
𝒚 𝑡+1 𝐿 ⋅
Loss 𝑡+1
Backward path
/18
 信号処理における畳み込み
 畳み込み層:基本的に動作は同じ
– 主なパラメータは
– ー filter size: 右図の灰色部分の形
– ー #stride: filterの移動幅
– ー #padding: 端の0埋め数
– ー #channel: filterの数
• 異なるフィルタ係数を持った
複数のfliterを利用
CNN (Convolutional NN):
畳み込み構造を持ったNN
10https://github.com/vdumoulin/conv_arithmetic からgifを引用
Timeは ね
は は
21 21
ね ね
21 21
全時間で同じ
フィルタ係数がかかる
/18
CNNの全体構造
11
[LeCun et al., 1998.]
フィルタ
インデックス
⋯
⋯
⋯
Pooling層
例:最大値をとるmax-pooling
/18
自己回帰型CNN
12
 CNNを自己回帰モデルとして扱う
– あるステップで生成した出力から,次のステップを推定
→ 信号処理の自己回帰 (エコーやハウリングなど) と同じ
– 系列を扱うRNNと違い,ステップごとに並列化して学習可能
 WaveNet (PixelCNNの派生) [Oord et al., 2016.]
– これまでに生成した波形から,次の波形を生成
–
https://deepmind.com/blog/wavenet-generative-model-raw-audio/ から引用
Deep Generative Model
13
/18
Deep generative model
(深層生成モデル)
 Deep generative modelとは
– DNNを使ってデータの生成分布を表現するモデル
– 前述の自己回帰型CNNも,これに相当
 ここでは,分布変形に基づく方法を紹介
– 既知の確率分布を観測データの分布に変形
– 生成データ 𝒚 の分布と観測データ 𝒚 の分布が似るようにDNNを学習
14
𝒙 ~ 𝑁 𝟎, 𝑰 𝑮 ⋅ 𝒚𝒚 = 𝑮 𝒙
生成
データの
分布
分布の近さを
計算
/18
Generative Adversarial Network (GAN):
分布間距離の最小化
 Generative adversarial network [Goodfellow et al., 2014.]
– 分布間の近似 Jensen-Shannon divergence を最小化
– 𝑮 ⋅ と,観測/生成データを識別する識別モデル 𝑫 ⋅ を敵対
15
𝒚
⋯
⋯
⋯
⋯
𝑮 ⋅
𝑫 ⋅
1: 観測
0: 生成
/18
Moment Matching Network (MMN):
モーメント間距離の最小化
 Moment matching network [Li et al., 2015.]
– 分布のモーメント (平均,分散,…) 間の二乗距離を最小化
– 実装上は,グラム行列のノルムの差を最小化
16
𝒚
𝒚
⋯
⋯
⋯
⋯
𝑮 ⋅
まとめ
17
/18
まとめ
 深層学習を深く学習するための基礎を紹介
 基礎構造
– Feed-Forward neural networks (FFNN)
– Recurrent neural networks (RNN) … LSTMなど
– Convolutional neural networks (CNN) … WaveNetなど
 Deep generative models
– Generative adversarial networks (GAN) … 敵対的学習
– Moment-matching networks (MMN)
18
/18
付録
19
Auto Encoder (AE)
20
/18
Auto-Encoder (AE):
特徴量の次元圧縮
21
 非線形の軸を引いて,特徴量の次元を削減
 Auto-Encoder: 元のデータを復元するように学習
– - 𝒉 = 𝑬 𝒙 : encoder, 𝒙 = 𝑫 𝒉 : decoder
2次元データ
非線形軸 𝒙
𝒉 非線形軸に写像
𝒙
𝒉
𝒙 𝑳 𝒙, 𝒙 = 𝒙 − 𝒙 ⊤
𝒙 − 𝒙
𝒙 = 𝑫 𝑬 𝒙
/18
Denoising AE
 より頑健な次元圧縮を行うため,入力側にノイズを付与
– ノイジーな入力から,元のデータを復元する
 どんなノイズを加える?
– Drop: ランダムに,使用する次元を減らす
• 𝒙 = 1,1,0,0,1,0,1 ^⊤ ∘ 𝒙 ( ∘ は要素積)
– Gauss: ガウスノイズを付与する
• 𝒙 = 𝒙 + 𝑵 𝟎, 𝜆𝑰 ( 𝜆 は分散)
22
𝒙
𝒉
𝒙 𝑳 𝒙, 𝒙 = 𝒙 − 𝒙 ⊤
𝒙 − 𝒙
𝒙 = 𝑫 𝑬 𝒙

More Related Content

What's hot

Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
 

What's hot (20)

やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)
 
研究分野をサーベイする
研究分野をサーベイする研究分野をサーベイする
研究分野をサーベイする
 
研究発表のためのプレゼンテーション技術
研究発表のためのプレゼンテーション技術研究発表のためのプレゼンテーション技術
研究発表のためのプレゼンテーション技術
 
2019年度チュートリアルBPE
2019年度チュートリアルBPE2019年度チュートリアルBPE
2019年度チュートリアルBPE
 
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
 
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
研究の基本ツール
研究の基本ツール研究の基本ツール
研究の基本ツール
 
BERT分類ワークショップ.pptx
BERT分類ワークショップ.pptxBERT分類ワークショップ.pptx
BERT分類ワークショップ.pptx
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心にウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
 
Generative Models(メタサーベイ )
Generative Models(メタサーベイ )Generative Models(メタサーベイ )
Generative Models(メタサーベイ )
 
フーリエ変換と画像圧縮の仕組み
フーリエ変換と画像圧縮の仕組みフーリエ変換と画像圧縮の仕組み
フーリエ変換と画像圧縮の仕組み
 
先端技術とメディア表現1 #FTMA15
先端技術とメディア表現1 #FTMA15先端技術とメディア表現1 #FTMA15
先端技術とメディア表現1 #FTMA15
 
論文に関する基礎知識2016
 論文に関する基礎知識2016 論文に関する基礎知識2016
論文に関する基礎知識2016
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
 
パワポ版の落合先生流論文要旨のテンプレートを作ったので配布する
パワポ版の落合先生流論文要旨のテンプレートを作ったので配布するパワポ版の落合先生流論文要旨のテンプレートを作ったので配布する
パワポ版の落合先生流論文要旨のテンプレートを作ったので配布する
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 

Viewers also liked

雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
Shinnosuke Takamichi
 
Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス
Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービスLyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス
Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス
Kosetsu Tsukuda
 
VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0
VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0
VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0
Michitaka Yumoto
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
Shuyo Nakatani
 

Viewers also liked (18)

日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
 
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
 
Jap2017 ss65 優しいベイズ統計への導入法
Jap2017 ss65 優しいベイズ統計への導入法Jap2017 ss65 優しいベイズ統計への導入法
Jap2017 ss65 優しいベイズ統計への導入法
 
Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス
Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービスLyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス
Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス
 
広告プラットフォーム立ち上げ百鬼夜行
広告プラットフォーム立ち上げ百鬼夜行広告プラットフォーム立ち上げ百鬼夜行
広告プラットフォーム立ち上げ百鬼夜行
 
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
 
アドテクスタジオのデータ分析基盤について
アドテクスタジオのデータ分析基盤についてアドテクスタジオのデータ分析基盤について
アドテクスタジオのデータ分析基盤について
 
マッチングサービスにおけるKPIの話
マッチングサービスにおけるKPIの話マッチングサービスにおけるKPIの話
マッチングサービスにおけるKPIの話
 
VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0
VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0
VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0
 
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
 
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
Jaccard係数の計算式と特徴(1)
Jaccard係数の計算式と特徴(1)Jaccard係数の計算式と特徴(1)
Jaccard係数の計算式と特徴(1)
 
最小カットを使って「燃やす埋める問題」を解く
最小カットを使って「燃やす埋める問題」を解く最小カットを使って「燃やす埋める問題」を解く
最小カットを使って「燃やす埋める問題」を解く
 
ミリシタを支える GAE/Go
ミリシタを支える GAE/Goミリシタを支える GAE/Go
ミリシタを支える GAE/Go
 
(DL hacks輪読)Bayesian Neural Network
(DL hacks輪読)Bayesian Neural Network(DL hacks輪読)Bayesian Neural Network
(DL hacks輪読)Bayesian Neural Network
 
If文から機械学習への道
If文から機械学習への道If文から機械学習への道
If文から機械学習への道
 
シリコンバレーの「何が」凄いのか
シリコンバレーの「何が」凄いのかシリコンバレーの「何が」凄いのか
シリコンバレーの「何が」凄いのか
 

Similar to 日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"

Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Ohsawa Goodfellow
 
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
Takahiro Kubo
 
20130925.deeplearning
20130925.deeplearning20130925.deeplearning
20130925.deeplearning
Hayaru SHOUNO
 

Similar to 日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎" (20)

Recurrent Neural Networks
Recurrent Neural NetworksRecurrent Neural Networks
Recurrent Neural Networks
 
音声認識と深層学習
音声認識と深層学習音声認識と深層学習
音声認識と深層学習
 
Chainerの使い方と 自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と 自然言語処理への応用
 
深層学習フレームワーク Chainerとその進化
深層学習フレームワークChainerとその進化深層学習フレームワークChainerとその進化
深層学習フレームワーク Chainerとその進化
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
 
Extract and edit
Extract and editExtract and edit
Extract and edit
 
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れ
 
Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介
Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介
Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開
 
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
 
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
 
Deep Learningの基礎と応用
Deep Learningの基礎と応用Deep Learningの基礎と応用
Deep Learningの基礎と応用
 
Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用
 
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
 
20130925.deeplearning
20130925.deeplearning20130925.deeplearning
20130925.deeplearning
 
深層学習による非滑らかな関数の推定
深層学習による非滑らかな関数の推定深層学習による非滑らかな関数の推定
深層学習による非滑らかな関数の推定
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-study
 

More from Shinnosuke Takamichi

Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
 

More from Shinnosuke Takamichi (20)

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情
 

Recently uploaded

TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
YukiTerazawa
 
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
koheioishi1
 

Recently uploaded (8)

TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
 
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
 
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
 
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
 
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
 
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
 
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
 
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
 

日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"

  • 2. /18 概要  背景:その強力さが叫ばれて久しい深層学習技術 – LSTM, CNN, Seq2Seq, CTC, GAN, AE, MemoryNet, SuperNN, etc.  問題:名前は聞いたことあるけど,中身をよく知らない… – (研究で使ってるけど,ぶっちゃけ中身をよく知らない)  本発表: – “名前は聞いたことある” から “仕組みがちょっとわかる” へ – 信号処理とも絡めつつ概要を紹介 2 このスライドはslideshareにアップロード済みです. (twitter: #asj2017a か 高道HPを参照)
  • 4. /18 線形変換+非線形活性化関数による変換 4 𝒚 = 𝒇 𝑾 𝒙 + 𝒃 行列 バイアス非線形 活性化関数 回転・伸縮 シフト 𝒙 𝒚 Forward 𝑾 𝒃 𝒇 ⋅ = ReLU ⋅ 𝜕(𝑾𝒙 + 𝒃) 𝜕𝒙 = 𝑾⊤ Backward (あとで説明)𝒙 の散布図
  • 5. /18  前のページの構造 (single-layer NN) を積み重ねる! – 複数のSingle-layer NN から成る関数  Forward propagationを式で書くと… Feed-Forward NN 5 ⋯ ⋯ ⋯ ⋯ 𝒙 𝒚 𝒉1 = 𝒇1 𝑾1 𝒙 + 𝒃1 𝒚 = 𝒇 𝐿 𝑾L 𝒉 𝐿−1 + 𝒃 𝐿 𝒉1 𝒉 𝐿−1 𝒚 = 𝒇 𝐿 𝑾L 𝒇 𝐿−1 𝑾L−𝟏 … 𝒇1 𝑾1 𝒙 + 𝒃1 … + 𝒃 𝐿−1 + 𝒃 𝐿
  • 6. /18  推定値 𝒚 と正解値 𝒚 から計算される損失関数 𝐿 ⋅ を最小化 – 二乗誤差 𝐿 𝐲, 𝒚 = 𝒚 − 𝒚 ⊤ 𝒚 − 𝒚  損失関数を最小化するようにモデルパラメータ 𝑾, 𝒃 を更新 – 勾配法がしばしば使われる(𝛼は学習係数 [AdaGradなどを使用]) モデルパラメータの学習 6 𝑾1 ← 𝑾1 − 𝛼 𝜕𝐿 𝐲, 𝒚 𝜕𝑾1 ⋯ ⋯ ⋯ ⋯ 𝒙 𝒚𝒉1 𝒉 𝐿−1 𝒚 𝐿 ⋅ 𝐿 𝐲, 𝒚 𝜕𝐿 𝐲, 𝒚 𝜕𝒚𝜕𝒚 𝜕𝒉 𝐿−1𝜕𝒉1 𝜕𝑾1 合成関数なので,各関数の 微分の積として得られる
  • 8. /18 RNN (Recurrent NN): リカレント構造を持ったNN  NNの出力の一部を入力に戻すNN (LSTMは,これの派生) – 構造情報など(例えば音声の時間構造)の依存性を記憶 8 𝒙 𝑡−2 ⋯ 𝒚 𝑡−2 𝒚 𝑡−2 𝐿 ⋅ Loss 𝑡−2 𝒙 𝑡−1 ⋯ 𝒚 𝑡−1 𝒚 𝑡−1 𝐿 ⋅ Loss 𝑡−1 𝒙 𝒕 ⋯ 𝒚 𝑡 𝒚 𝑡 𝐿 ⋅ Loss 𝑡 𝒙 𝑡+1 ⋯ 𝒚 𝑡+1 𝒚 𝑡+1 𝐿 ⋅ Loss 𝑡+1
  • 9. /18 BPTT: Back propagation Through Time  当該時間におけるbackpropagationを,過去の時間に伝播 – 一定時間でbackwardを打ち切る方法をTruncated BPTTという 9 𝒙 𝑡−2 ⋯ 𝒚 𝑡−2 𝒚 𝑡−2 𝐿 ⋅ Loss 𝑡−2 𝒙 𝑡−1 ⋯ 𝒚 𝑡−1 𝒚 𝑡−1 𝐿 ⋅ Loss 𝑡−1 𝒙 𝒕 ⋯ 𝒚 𝑡 𝒚 𝑡 𝐿 ⋅ Loss 𝑡 𝒙 𝑡+1 ⋯ 𝒚 𝑡+1 𝒚 𝑡+1 𝐿 ⋅ Loss 𝑡+1 Backward path
  • 10. /18  信号処理における畳み込み  畳み込み層:基本的に動作は同じ – 主なパラメータは – ー filter size: 右図の灰色部分の形 – ー #stride: filterの移動幅 – ー #padding: 端の0埋め数 – ー #channel: filterの数 • 異なるフィルタ係数を持った 複数のfliterを利用 CNN (Convolutional NN): 畳み込み構造を持ったNN 10https://github.com/vdumoulin/conv_arithmetic からgifを引用 Timeは ね は は 21 21 ね ね 21 21 全時間で同じ フィルタ係数がかかる
  • 11. /18 CNNの全体構造 11 [LeCun et al., 1998.] フィルタ インデックス ⋯ ⋯ ⋯ Pooling層 例:最大値をとるmax-pooling
  • 12. /18 自己回帰型CNN 12  CNNを自己回帰モデルとして扱う – あるステップで生成した出力から,次のステップを推定 → 信号処理の自己回帰 (エコーやハウリングなど) と同じ – 系列を扱うRNNと違い,ステップごとに並列化して学習可能  WaveNet (PixelCNNの派生) [Oord et al., 2016.] – これまでに生成した波形から,次の波形を生成 – https://deepmind.com/blog/wavenet-generative-model-raw-audio/ から引用
  • 14. /18 Deep generative model (深層生成モデル)  Deep generative modelとは – DNNを使ってデータの生成分布を表現するモデル – 前述の自己回帰型CNNも,これに相当  ここでは,分布変形に基づく方法を紹介 – 既知の確率分布を観測データの分布に変形 – 生成データ 𝒚 の分布と観測データ 𝒚 の分布が似るようにDNNを学習 14 𝒙 ~ 𝑁 𝟎, 𝑰 𝑮 ⋅ 𝒚𝒚 = 𝑮 𝒙 生成 データの 分布 分布の近さを 計算
  • 15. /18 Generative Adversarial Network (GAN): 分布間距離の最小化  Generative adversarial network [Goodfellow et al., 2014.] – 分布間の近似 Jensen-Shannon divergence を最小化 – 𝑮 ⋅ と,観測/生成データを識別する識別モデル 𝑫 ⋅ を敵対 15 𝒚 ⋯ ⋯ ⋯ ⋯ 𝑮 ⋅ 𝑫 ⋅ 1: 観測 0: 生成
  • 16. /18 Moment Matching Network (MMN): モーメント間距離の最小化  Moment matching network [Li et al., 2015.] – 分布のモーメント (平均,分散,…) 間の二乗距離を最小化 – 実装上は,グラム行列のノルムの差を最小化 16 𝒚 𝒚 ⋯ ⋯ ⋯ ⋯ 𝑮 ⋅
  • 18. /18 まとめ  深層学習を深く学習するための基礎を紹介  基礎構造 – Feed-Forward neural networks (FFNN) – Recurrent neural networks (RNN) … LSTMなど – Convolutional neural networks (CNN) … WaveNetなど  Deep generative models – Generative adversarial networks (GAN) … 敵対的学習 – Moment-matching networks (MMN) 18
  • 21. /18 Auto-Encoder (AE): 特徴量の次元圧縮 21  非線形の軸を引いて,特徴量の次元を削減  Auto-Encoder: 元のデータを復元するように学習 – - 𝒉 = 𝑬 𝒙 : encoder, 𝒙 = 𝑫 𝒉 : decoder 2次元データ 非線形軸 𝒙 𝒉 非線形軸に写像 𝒙 𝒉 𝒙 𝑳 𝒙, 𝒙 = 𝒙 − 𝒙 ⊤ 𝒙 − 𝒙 𝒙 = 𝑫 𝑬 𝒙
  • 22. /18 Denoising AE  より頑健な次元圧縮を行うため,入力側にノイズを付与 – ノイジーな入力から,元のデータを復元する  どんなノイズを加える? – Drop: ランダムに,使用する次元を減らす • 𝒙 = 1,1,0,0,1,0,1 ^⊤ ∘ 𝒙 ( ∘ は要素積) – Gauss: ガウスノイズを付与する • 𝒙 = 𝒙 + 𝑵 𝟎, 𝜆𝑰 ( 𝜆 は分散) 22 𝒙 𝒉 𝒙 𝑳 𝒙, 𝒙 = 𝒙 − 𝒙 ⊤ 𝒙 − 𝒙 𝒙 = 𝑫 𝑬 𝒙