深層学習を利用した音声強調

Google Research
小泉悠馬
深層学習を利用した音声強調
日本音響学会第 22 回サマーセミナー
「音響学の基礎と最近のトピックス」

Proprietary + Conﬁdential
自己紹介
❏ 名前：小泉悠馬
❏ 略歴：
❏ 2014年：法政大院情報科学研究科卒（修士）
❏ 2017年：電通大院情報理工学研究科卒（博士工学）
❏ 2014年〜2020年：NTTメディアインテリジェンス研究所研究員
❏ 2020年〜：Google Research, Research Scientist
❏ 研究分野：音声強調・音声認識・音環境認識（電気音響＆音声A）
❏ 音響学会でのお仕事：評議員、学生・若手フォーラム代表

Google Speech Group in Tokyo
Michiel Bacchiani Richard Sproat Llion Jones
Yotaro Kubo Shigeki Karita Tobenna Igwe Yuma Koizumi

なんと言っているでしょう？

ではこれなら？

ではこれなら？
It was nearly night when
Rudolph arrived, and what...

音声強調とは
Speech
Noise 1
Noise 2
OK Google
Observation Oh [GAAAAA]
Kay [PiyoPiyo]
Uhle..

音声強調とは
OK Google
Observation
音声強調
Speech
Noise
OK Google
Oh [GAAAAA]
Kay [PiyoPiyo]
Uhle..
Speech
Noise 1
Noise 2

マスクベースの音声強調

Encoder Decoder
マスク推定
マイクで
収録した音
強調した音
e.g. STFT e.g. 逆STFT
ここがDNN
DNNは何をするのか？
❏ マスクの推定にDNNを使う

Encoder Decoder
マスク推定
１次元畳み込み１次元逆畳み込み
最近の ”時間領域” 音声強調
マイクで
収録した音
強調した音
❏ STFT（短時間フーリエ変換）の代わりに１次元CNNを使って、音声強調処
理全体を学習してしまう（いわゆる end-to-end）

音声
雑音
模擬した入力音
音声
雑音
Speech
Noise
+
音声の
誤差
雑音の
誤差
学習データ
どうやって学習するの？
音声強調DNN

音声
雑音
模擬した入力音
音声
雑音
Speech
Noise
+
音声の
誤差
雑音の
誤差
学習データ
どうやって学習するの？
音声強調DNN
誤差逆伝播
誤差逆伝播

私もやってみたい！
❏ たくさんのオープンソースなツールキットがあります
❏ Asteroid
❏ 単一チャネルマスクベース音声強調/分離を基本としたツールキット
❏ 設計がシンプルなので非常に触りやすい
❏ データセットのダウンロードも簡単
❏ ESPnet
❏ 音声認識/合成にフォーカスしたツールキット
❏ 音声強調/分離の単体学習だけでなく、音声認識との同時学習もできる
❏ マルチチャネルの残響除去/音声強調にも対応（全部盛り...!!）
❏ SpeechBrain
❏ 最近公開された新しいツールキット
❏ 私は触ったことはないですが、スクラッチ学習のチュートリアルもあってとっつ
きやすそう

ちょっとだけ、手前味噌な研究紹介
Encoder Decoder
TdcnBlocks
マイクで
収録した音
強調した音
Y. Koizumi, et al., "DF-Conformer: Integrated architecture of Conv-TasNet and Conformer using linear complexity self-attention for speech enhancement," WASPAA 2021.
多段の dilated conv だけでは時間構造をうまく解析できない
Conv-TasNet

Encoder Decoder
Conformer
Block
マイクで
収録した音
強調した音
Conv-TasNet Conformer
一般的なAttention は O(N2
) の計算量が必要で
分析窓長が2.5ms の時間領域音声強調では使えない

Encoder Decoder
DF-Conformer
Block
マイクで
収録した音
強調した音
NEW
O(N) の Attention に変更
Dilated conv に変更 (Conv-TasNet のいいとこどり)

入力音出力音
プレプリント：arxiv.org/abs/2106.15813
デモサイト：google.github.io/df-conformer/waspaa2021

今後、どんな風に進化していくだろう？
❏ 正直、教師ありのオフライン音声強調の性能はサチってきました
❏ SNR改善量が 14.0dB から 15.0dB になって、聞いて違いがわかる？
❏ それは実環境でも同じように動くの？使い易いの？
❏ 他タスクのフロントエンドとしての評価は十分でないようです
❏ アドホックな学習方法を利用して、ようやく単一チャネル音声強調と音声認識
の同時学習が動くようになってきたところです
❏ オンライン化、モデルの小型化、教師なし学習など、次の研究課題はたくさん
あります

おわり

ちなみに：音源分離？音声強調？
Sound1
Sound2
Sound3
OK Google
Observation
音源分離
Sound1
Sound2
Sound3
OK Google
Oh [GAAAAA]
Kay [PiyoPiyo]
Uhle..
❏ 音源分離: 混ざったものを、それぞれ個別な音へ分離する
❏ 音声強調: 混ざったものを、欲しい音声とそれ以外へ分離する

ちなみに：マイクの個数？
❏ マイクは１つ（single-channel enhancement）
❏ 音の音色を手がかりにした分離
❏ 非線形なフィルタリング（後述）
❏ マイクは複数（multi-channel enhancement）
❏ 加えて、音の空間的な特性を手がかりにできる
❏ 線形なフィルタリング（多分、他の先生が解説してくれます）
❏ 今日は、シングルチャネルの音声強調に絞って解説します

深層学習を利用した音声強調

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 深層学習を利用した音声強調

Similar to 深層学習を利用した音声強調 (20)

More from Yuma Koizumi

More from Yuma Koizumi (7)

深層学習を利用した音声強調