SlideShare a Scribd company logo
1 of 26
Download to read offline
Google Research
小泉 悠馬
深層学習を利用した音声強調
日本音響学会第 22 回サマーセミナー
「音響学の基礎と最近のトピックス」
Proprietary + Confidential
自己紹介
❏ 名前:小泉 悠馬
❏ 略歴:
❏ 2014年:法政大院 情報科学研究科卒(修士)
❏ 2017年:電通大院 情報理工学研究科卒(博士 工学)
❏ 2014年〜2020年:NTTメディアインテリジェンス研究所 研究員
❏ 2020年〜:Google Research, Research Scientist
❏ 研究分野:音声強調・音声認識・音環境認識(電気音響&音声A)
❏ 音響学会でのお仕事:評議員、学生・若手フォーラム代表
Proprietary + Confidential
Google Speech Group in Tokyo
Michiel Bacchiani Richard Sproat Llion Jones
Yotaro Kubo Shigeki Karita Tobenna Igwe Yuma Koizumi
Proprietary + Confidential
なんと言っているでしょう?
Proprietary + Confidential
ではこれなら?
Proprietary + Confidential
ではこれなら?
It was nearly night when
Rudolph arrived, and what...
Proprietary + Confidential
音声強調とは
Speech
Noise 1
Noise 2
OK Google
Observation Oh [GAAAAA]
Kay [PiyoPiyo]
Uhle..
Proprietary + Confidential
音声強調とは
OK Google
Observation
音声強調
Speech
Noise
OK Google
Oh [GAAAAA]
Kay [PiyoPiyo]
Uhle..
Speech
Noise 1
Noise 2
Proprietary + Confidential
マスクベースの音声強調
Proprietary + Confidential
マスクベースの音声強調
Proprietary + Confidential
マスクベースの音声強調
Proprietary + Confidential
マスクベースの音声強調
Proprietary + Confidential
Encoder Decoder
マスク推定
マイクで
収録した音
強調した音
e.g. STFT e.g. 逆STFT
ここがDNN
DNNは何をするのか?
❏ マスクの推定にDNNを使う
Proprietary + Confidential
Encoder Decoder
マスク推定
1次元畳み込み 1次元逆畳み込み
最近の ”時間領域” 音声強調
マイクで
収録した音
強調した音
❏ STFT(短時間フーリエ変換)の代わりに1次元CNNを使って、音声強調処
理全体を学習してしまう(いわゆる end-to-end)
Proprietary + Confidential
音声
雑音
模擬した入力音
音声
雑音
Speech
Noise
+
音声の
誤差
雑音の
誤差
学習データ
どうやって学習するの?
音声強調DNN
Proprietary + Confidential
音声
雑音
模擬した入力音
音声
雑音
Speech
Noise
+
音声の
誤差
雑音の
誤差
学習データ
どうやって学習するの?
音声強調DNN
誤差逆伝播
誤差逆伝播
Proprietary + Confidential
私もやってみたい!
❏ たくさんのオープンソースなツールキットがあります
❏ Asteroid
❏ 単一チャネルマスクベース音声強調/分離を基本としたツールキット
❏ 設計がシンプルなので非常に触りやすい
❏ データセットのダウンロードも簡単
❏ ESPnet
❏ 音声認識/合成にフォーカスしたツールキット
❏ 音声強調/分離の単体学習だけでなく、音声認識との同時学習もできる
❏ マルチチャネルの残響除去/音声強調にも対応(全部盛り...!!)
❏ SpeechBrain
❏ 最近公開された新しいツールキット
❏ 私は触ったことはないですが、スクラッチ学習のチュートリアルもあってとっつ
きやすそう
Proprietary + Confidential
ちょっとだけ、手前味噌な研究紹介
Encoder Decoder
TdcnBlocks
マイクで
収録した音
強調した音
Y. Koizumi, et al., "DF-Conformer: Integrated architecture of Conv-TasNet and Conformer using linear complexity self-attention for speech enhancement," WASPAA 2021.
多段の dilated conv だけでは時間構造をうまく解析できない
Conv-TasNet
Proprietary + Confidential
ちょっとだけ、手前味噌な研究紹介
Encoder Decoder
Conformer
Block
マイクで
収録した音
強調した音
Y. Koizumi, et al., "DF-Conformer: Integrated architecture of Conv-TasNet and Conformer using linear complexity self-attention for speech enhancement," WASPAA 2021.
Conv-TasNet Conformer
一般的なAttention は O(N2
) の計算量が必要で
分析窓長が2.5ms の時間領域音声強調では使えない
Proprietary + Confidential
ちょっとだけ、手前味噌な研究紹介
Encoder Decoder
DF-Conformer
Block
マイクで
収録した音
強調した音
NEW
Y. Koizumi, et al., "DF-Conformer: Integrated architecture of Conv-TasNet and Conformer using linear complexity self-attention for speech enhancement," WASPAA 2021.
O(N) の Attention に変更
Dilated conv に変更 (Conv-TasNet のいいとこどり)
Proprietary + Confidential
ちょっとだけ、手前味噌な研究紹介
入力音 出力音
プレプリント:arxiv.org/abs/2106.15813
デモサイト:google.github.io/df-conformer/waspaa2021
Y. Koizumi, et al., "DF-Conformer: Integrated architecture of Conv-TasNet and Conformer using linear complexity self-attention for speech enhancement," WASPAA 2021.
Proprietary + Confidential
ちょっとだけ、手前味噌な研究紹介
Proprietary + Confidential
今後、どんな風に進化していくだろう?
❏ 正直、教師ありのオフライン音声強調の性能はサチってきました
❏ SNR改善量が 14.0dB から 15.0dB になって、聞いて違いがわかる?
❏ それは実環境でも同じように動くの?使い易いの?
❏ 他タスクのフロントエンドとしての評価は十分でないようです
❏ アドホックな学習方法を利用して、ようやく単一チャネル音声強調と音声認識
の同時学習が動くようになってきたところです
❏ オンライン化、モデルの小型化、教師なし学習など、次の研究課題はたくさん
あります
Proprietary + Confidential
おわり
Proprietary + Confidential
ちなみに:音源分離?音声強調?
Sound1
Sound2
Sound3
OK Google
Observation
音源分離
Sound1
Sound2
Sound3
OK Google
Oh [GAAAAA]
Kay [PiyoPiyo]
Uhle..
❏ 音源分離: 混ざったものを、それぞれ個別な音へ分離する
❏ 音声強調: 混ざったものを、欲しい音声とそれ以外へ分離する
Proprietary + Confidential
ちなみに:マイクの個数?
❏ マイクは1つ(single-channel enhancement)
❏ 音の音色を手がかりにした分離
❏ 非線形なフィルタリング(後述)
❏ マイクは複数(multi-channel enhancement)
❏ 加えて、音の空間的な特性を手がかりにできる
❏ 線形なフィルタリング(多分、他の先生が解説してくれます)
❏ 今日は、シングルチャネルの音声強調に絞って解説します

More Related Content

What's hot

What's hot (20)

[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
 
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
 
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
 
畳み込みLstm
畳み込みLstm畳み込みLstm
畳み込みLstm
 
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
 
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
 

Similar to 深層学習を利用した音声強調

研究・企業・生き方について 情報科学若手の会2011
研究・企業・生き方について 情報科学若手の会2011研究・企業・生き方について 情報科学若手の会2011
研究・企業・生き方について 情報科学若手の会2011
Preferred Networks
 
特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー
特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー
特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー
Osaka University
 
できない英語を駆使してKaggleに挑戦してみた
できない英語を駆使してKaggleに挑戦してみたできない英語を駆使してKaggleに挑戦してみた
できない英語を駆使してKaggleに挑戦してみた
Keisuke Tokuda
 

Similar to 深層学習を利用した音声強調 (20)

2014LETシンポジウム WritingMaetriXについて
2014LETシンポジウム WritingMaetriXについて2014LETシンポジウム WritingMaetriXについて
2014LETシンポジウム WritingMaetriXについて
 
NECTJ JHL Annual Conference Namiai Internatinal Camp
NECTJ JHL Annual Conference Namiai Internatinal CampNECTJ JHL Annual Conference Namiai Internatinal Camp
NECTJ JHL Annual Conference Namiai Internatinal Camp
 
mlabforum2012_okanohara
mlabforum2012_okanoharamlabforum2012_okanohara
mlabforum2012_okanohara
 
ITコミュニティに関する自由研究
ITコミュニティに関する自由研究ITコミュニティに関する自由研究
ITコミュニティに関する自由研究
 
地方豪族論in札幌
地方豪族論in札幌地方豪族論in札幌
地方豪族論in札幌
 
嘉悦大学 「ICT×社会起業=イノベーション!」
嘉悦大学 「ICT×社会起業=イノベーション!」嘉悦大学 「ICT×社会起業=イノベーション!」
嘉悦大学 「ICT×社会起業=イノベーション!」
 
20200220 od policy da
20200220 od policy da20200220 od policy da
20200220 od policy da
 
Sakai 20120414
Sakai 20120414Sakai 20120414
Sakai 20120414
 
学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割
 
Microsoft Imagine Cupと深層学習を用いた音源分離技術について_言語音声ナイト
Microsoft Imagine Cupと深層学習を用いた音源分離技術について_言語音声ナイトMicrosoft Imagine Cupと深層学習を用いた音源分離技術について_言語音声ナイト
Microsoft Imagine Cupと深層学習を用いた音源分離技術について_言語音声ナイト
 
Nagaya 20110723
Nagaya 20110723Nagaya 20110723
Nagaya 20110723
 
DeNAにおける先端AI技術活用のチャレンジ
DeNAにおける先端AI技術活用のチャレンジDeNAにおける先端AI技術活用のチャレンジ
DeNAにおける先端AI技術活用のチャレンジ
 
研究・企業・生き方について 情報科学若手の会2011
研究・企業・生き方について 情報科学若手の会2011研究・企業・生き方について 情報科学若手の会2011
研究・企業・生き方について 情報科学若手の会2011
 
Scipy Japan 2019の紹介
Scipy Japan 2019の紹介Scipy Japan 2019の紹介
Scipy Japan 2019の紹介
 
特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー
特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー
特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー
 
家族を育むスタイル・ランゲージ - 日々の世界のつくりかた - (ORF2017)
家族を育むスタイル・ランゲージ  - 日々の世界のつくりかた - (ORF2017)家族を育むスタイル・ランゲージ  - 日々の世界のつくりかた - (ORF2017)
家族を育むスタイル・ランゲージ - 日々の世界のつくりかた - (ORF2017)
 
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
 
体験/メディアのIAデザインに関する
体験/メディアのIAデザインに関する体験/メディアのIAデザインに関する
体験/メディアのIAデザインに関する
 
専門演習_河野ゼミ説明会20191120
専門演習_河野ゼミ説明会20191120専門演習_河野ゼミ説明会20191120
専門演習_河野ゼミ説明会20191120
 
できない英語を駆使してKaggleに挑戦してみた
できない英語を駆使してKaggleに挑戦してみたできない英語を駆使してKaggleに挑戦してみた
できない英語を駆使してKaggleに挑戦してみた
 

More from Yuma Koizumi

More from Yuma Koizumi (7)

A Brief Introduction of Anomalous Sound Detection: Recent Studies and Future...
A Brief Introduction of Anomalous Sound Detection:  Recent Studies and Future...A Brief Introduction of Anomalous Sound Detection:  Recent Studies and Future...
A Brief Introduction of Anomalous Sound Detection: Recent Studies and Future...
 
キーワード推定を内包したオーディオキャプション法
キーワード推定を内包したオーディオキャプション法キーワード推定を内包したオーディオキャプション法
キーワード推定を内包したオーディオキャプション法
 
音響システム特論 第11回 実環境における音響信号処理と機械学習
音響システム特論 第11回 実環境における音響信号処理と機械学習音響システム特論 第11回 実環境における音響信号処理と機械学習
音響システム特論 第11回 実環境における音響信号処理と機械学習
 
音響信号に対する異常音検知技術と応用
音響信号に対する異常音検知技術と応用音響信号に対する異常音検知技術と応用
音響信号に対する異常音検知技術と応用
 
Theory and Methods for Unsupervised Anomaly Detection in Sounds Based on Deep...
Theory and Methods for Unsupervised Anomaly Detection in Sounds Based on Deep...Theory and Methods for Unsupervised Anomaly Detection in Sounds Based on Deep...
Theory and Methods for Unsupervised Anomaly Detection in Sounds Based on Deep...
 
Black-box Optimization of DNN-based Source Enhancement for Increasing Objecti...
Black-box Optimization of DNN-based Source Enhancement for Increasing Objecti...Black-box Optimization of DNN-based Source Enhancement for Increasing Objecti...
Black-box Optimization of DNN-based Source Enhancement for Increasing Objecti...
 
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用
 

深層学習を利用した音声強調