SlideShare ist ein Scribd-Unternehmen logo
1 von 32
Downloaden Sie, um offline zu lesen
国際会議Interspeech2020報告
発表者
稲熊 寛文 (京都大)
音声認識
塩田 さやか (都立大)
話者照合
柳田 智也 (奈良先端大)
音声合成
高道 慎之介 (東京大)
自己教師あり学習
公開版につき,顔写真を削除しました.
Interspeech2020
● ICASSP と並んで音声系トップカンファレンス
○ 本年度は2103件の投稿から1021件採択 (採択率:49%)
○
● 2020/10/25 ~ 29にかけてオンライン開催 (本来は上海)
○ 1.5分のハイライトビデオと3.5分の質疑応答
○
● 論文は全てオンラインで公開されている
○ https://www.isca-speech.org/iscaweb/index.php/online-archive
○ 以降のスライドで登場する論文の図表は,ここより引用
音声認識
稲熊寛文 (京都大学)
所感
● トレンド
○ Transformerモデル
○ Self-training / Pseudo labeling
○ オンラインストリーミング音声認識
○ 非自己回帰end-to-end音声認識
● セッション重複のため,リアルタイムで全ての発表を追うのは難しい
● 会議前に話題になっていた論文の発表に注目が集まっていた印象
● 一学生として:短い発表の中で顔と名前を売るのは難しく感じた
Self-training
● 音声のみで事前学習するCPC [Van den Oord+ 2019] やWav2vec
[Schneider+ 2019] などとは異なり,対象のASRモデルで音声のみのデータ
に対して認識を行う
● 得られたラベルと音声を新たなペアデータとしてデータ拡張
「Improved Noisy Student Training for Automatic Speech Recognition」 (Google)
「Iterative Pseudo-Labeling for Speech Recognition」 (Facebook)
手法(以下2-3を複数回繰り返す)
1. ペアデータで最初のモデルを学習
2. 追加の音声データを言語モデルを使って現在のモデルパラ
メータで認識
3. これを擬似教師ラベルとして元のペアデータと合わせ
,SpecAugmentを使って学習
Self-training
Googleの工夫
● Beam searchのスコアと出力系列長でフィルタリング
● 学習データとトークンの分布が近くなるようにサンプリング
● SpecAugmentの時間方向のマスクサイズをだんだん大きくしていくとgood
ほぼ同様の手法
「Semi-supervised ASR by End-to-End Self-training」(Amazon)
「Semi-Supervised Learning with Data Augmentation for End-to-End ASR」(Nuance)
音声翻訳でも
「Self-Training for End-to-End Speech Translation」(Facebook)
dev-clean dev-other test-clean test-other
Google 1.6 3.4 1.7 3.4
Facebook 1.85 3.26 2.10 4.01
Conformer (Google)
TransformerエンコーダをCNNアーキテクチャで拡張(w/ LAS)
● Multi-head attention (MHA) の後にCNNモジュール追加
● Macaron-styleのFeed-forward layer(MHAをサンドイッチ)
● MHA->CNNの順番がよい
● Relative positional encoding
● 活性化関数をReLUからSwish
現在,多くのフォローアップ論文が登場し,
様々なタスクに応用されている
Gulati et al, “Conformer: Convolution-augmented Transformer for Speech Recognition”
ContextNet (Google)
Globalな情報を捉えるようCNNエンコーダを改良(w/ RNN-T)
● Squeeze-and-excitation (SE) layer
○ 入力全体を1つのベクトルに平均して非線形関数+sigmoidに通し,元の入
力に要素ごとにかける
● Depthwise separable convolutionによるCNNブロック
● パラメータ数 vs WERのトレードオフをチャネルサイズのスケールパラメータで
上手くコントロール可能
Han et al, “ContextNet: Improving Convolutional Neural Networks for Automatic Speech Recognition with Global Context”
Conformer vs ContextNet
精度はほとんど同じ(フォローアップ論文でも同様)
どちらもTransformerライクなlearning rate schedulingなので
,Transformerデコーダと親和性高い(LAS/RNN-Tにも使用可能)
どちらもストリーミング認識に拡張可能で同等の精度 [Yu+ 2020]
オンラインストリーミング音声認識
Two-pass model (Google)
● RNN-T -> Transformerリスコアリング (2nd pass)
● 全トークンを一度で入力できるため,LSTMより高速
ScoutNet (Microsoft)
● Triggered attention [Moritz+ 2019] をフレームレベルの
アライメント情報を用いて改善
● エンコーダで単語境界を推定するように学習
● 推論時,各境界より過去のコンテキストで認識
● トークン出力のレイテンシが抑えられる
Li et al, “Parallel Rescoring with Transformer for Streaming On-Device Speech
Recognition”
Wang et al, “Low Latency End-to-End Streaming Speech Recognition with a Scout
Network”
Diarization+ASR
Serialized output training (Microsoft)
● LASベースのpermutation invariant training (PIT) [Dong+ 2017]を使
わないsingle-channel multi-speaker ASR
● 任意の話者数に適用可能
● 話し始めた順番に話者ごとに認識(話者数をカウント可能)
手法
● 複数話者の仮説をspeaker changeラベル
<sc>でconcat
● 全体の系列の最後にのみ<eos>をつける
● Overlap speechの開始時刻情報を使うことで
のpermutationの計算量を定数に削減
● Attentionの後(separationの後)にさらに
LSTMをスタックすると良い
Kanda et al, “Serialized Output Training for End-to-End Overlapped Speech Recognition”
その他
● All-in-One Transformer (MERL)
○ ASR, audio tagging, acoustic event detectionを1つのTransformerで行
う
○ Audio taggingの精度が改善
Moritz et al, “All-in-One Transformer: Unifying Speech
Recognition, Audio Tagging, and Event Detection”
音声合成
柳田智也(NAIST)
所感
● 音響モデル(Text2melモデル)
○ 自己or非自己 回帰Transformer TTSを使用した合成
○ 逐次音声合成(incremental/streaming TTS)の台頭 ←これの話が主
○
● ウェーブネットボコーダ
○ 課題:高速学習/推論・高品質
○ 音声生成モデルや、音響工学の知見を生かしたモデル提案
○ HiNet(位相と振幅をニューラルネットで予測し音声復元)
■ → HiNet + ニューラル残響モデルで収録音声の復元[Ai, et al.]
○ ソース・フィルタモデルの線形時不変フィルタを制御[Liu, et al.]
○
● その他の発表トピック
○ 歌唱合成、韻律モデリング、パラ言語生成、テキスト処理及び評価
○ 大規模多言語複数話者TTSの挑戦、50言語ID+複数話者ID[Yang, et al.]
[Ai, et al.]Reverberation Modeling for Source-Filter-based Neural Vocoder, Interspeech 2020
[Liu, et al.]Neural Homomorphic Vocoder, Interspeech 2020
[Yang, et al.]Towards Universal Text-to-Speech, Interspeech 2020
[Ma, et al., 2020]テキスト入力中に音声出力
k系列の入力後、音響特徴生成開始
→ 最適な入出力長を決定不可
[Mohan, et al., 2020 Interspeech]入出力長制御に強化学習
→ 環境からの観測で行動を選択し、その行動で環境が変化するモデル
行動を繰り返し、最終的な報酬を最大化する行動を学習
Incremental Text to Speech for Neural Sequence-to-Sequence
Models using Reinforcement Learning
[Ma, et al., 2020]“Incremental Text-to-Speech Synthesis with Prefix-to-Prefix Framework”, (https://arxiv.org/abs/1911.02750)
[Mohan, et al., 2020 Interspeech] Incremental Text to Speech for Neural Sequence-to-Sequence Models using Reinforcement Learning, Interspeech 2020
処理の例
①3単語入力し、1単語目を生成開始
②argmax(注意スコア)が2単語目なら生成停止
③4単語目を入力、①から同様に繰り返す
報酬の設計
報酬は、遅延報酬と品質報酬の話
遅延報酬
① 複数回の連続READで報酬を減少
② 注意行列の平均面積と、基準値(0.5)との差分
→0が最大報酬で、基準値がREADとSPEAKの割合制御
→ 基準値=1.0の場合、全入力READ後の音響特徴推定が最大報酬(=0)
品質報酬、 0が最大報酬
③ 予測と目標音響特徴とのMSE
アテンション分析
(a,b) 通常の音声合成、2step毎にREAD(READ、SPEAK、READ、SPEAK ...)
必要以上の入力を参照
→ 不必要なREAD有
→ 回避可能な遅延の存在
(c) 3 step毎にSPEAK
不必要なREADを削減
→ 入力の不足
→ 音声品質の低下
(d) 提案法
READ/ SPEAKの制御成功
※灰色部分は利用不可な入力
品質評価と遅延
自然性は、5段階MOS(1:とても悪い~5:とても良い)
明瞭性は、音声認識の単語誤り率(WER)
遅延は、アテンションの平均面積(通常のTTS=1.0)
提案法は、品質と遅延の制御に成功、
LSTMのみのシンプルな構造、品質の改善余地
その他Interspeech2020 逐次音声合成の発表
[Stephenson, et al.] What the Future Brings: Investigating
the Impact of Lookahead for Incremental Neural TTS
 逐次音声合成の中間表現と、通常TTSとの類似性分析
 2単語の単語先読みで94%の類似性(英語)
[Ellinas, et al.] High Quality Streaming Speech Synthesis
with Low, Sentence-Length-Independent Latency
 CPU用End-to-End逐次音声合成の構築及び遅延評価
 
話者認識
塩田さやか (所属)
全般
一般セッション: 7
● Speaker recognition I, II
● Learning Techniques for Speaker Recognition I, II
● Speaker Embedding
● DNN Architectures for Speaker Recognition
● Speaker Recognition Challenges and Applications
スペシャルセッション: 3
● Large-Scale Evaluation of Short-Duration Speaker Verification
● The Interspeech 2020 Far Field Speaker Verification Challenge
● The Attacker’s Perspective on Automatic Speaker Verification
傾向
Speaker embedding
● x-vectorベースの手法でロスの変更、ネットワークの変更
● より省データ、より短い話者表現
Short utterance
Raw waveform の使用
Adversarial example への注目
● spoofingとは異なる
Wav2Spk: A Simple DNN Architecture for Learning
Speaker Embeddings from Waveforms
入力特徴量をwaveformに
  MFCC, VAD, CMVN
→ stacked of stride convolutions (wav2vec),
temporal gating, instance normalization
   フレーム長30ms, フレームシフト10msに相当
コサイン類似度
Investigating Robustness of Adversarial Samples
Detection for Automatic Speaker Verification
敵対的攻撃
データ拡張としての使用が多かった
BIM(FGSMの拡張版)とJSMA 2種類の攻撃
敵対的攻撃検出
VGGベースのネットワーク+MFCC(conv層が必要)
自己教師あり学習
高道 慎之介 (東京大学)
自己教師あり学習と音声分野の潮流
● 自己教師あり学習
○ 教師のないデータを用いて,データ自らを教師とした表現を獲得
○ 音声音響分野では,これから数年注目を浴びそう
■ ICML2020 Workshop “Self-supervision in audio and speech”
■ Interspeech2020 Special session “New trends in self-supervised
speech processing” ←この発表のメイン
■
● Interspeech2020の発表を分類
○ 他分野の成功を受けて音声に輸入されたもの ←この発表のメイン
○ 音声工学に基づいて独自発展したもの
他分野の自己教師あり学習をそのまま輸入で
きるのか? → できない.なぜ?
● 系列の分解能が高い (= 系列長が長い)
■ 波形: 16,000サンプル/秒〜.
■
● 各サンプルの値は連続値である
■ 量子化しても2^16 (65536) 段階〜
■
● 任意長の系列である
■ これは自然言語と同じ
Speech-BERT と BERT の
同時ファインチューニング [Siriwardhana20]
● Speech-BERT [Baevski19]
○ 10ms-stride のCNN … ダウンサンプリング
○ Gumbel-softmax … 量子化
○ 処理後は,100サンプル/秒の離散シンボル
■ 自然言語と同様にBERTを学習可能
■ (マスクされた入力を予測する)
■
● 音声情報・言語情報を使う音声感情認識モデルの学習
○ それぞれのCLS (classification) トークンを結合し,shallow fusion
S. Siriwardhana et al.
“Jointly Fine-Tuning “BERT-Like” Self Supervised Models to Improve Multimodal Speech Emotion Recognition,” Interspeech2020.
https://arxiv.org/pdf/1910.05453.pdf
C
L
S
Speech-BERT
C
L
S
BERT
Quantized speech BPE-tokenized text
Speech-XLNet [Song20]
● 前提:BERT から XLNet へ
○ マスクされたトークンの独立予測から自己回帰的予測へ
● Speech-XLNet
○ 基本的にはXLNet と同じだが,トークンは連続値のベクトル
○ Huber loss を採用 (L1/L2ロスはうまく動かなかった)
■ L1とL2ロスの切り替え
X. Song et al., “Speech-XLNet: Unsupervised Acoustic Model Pretraining for Self-Attention Networks,” Interspeech2020.
New York is a
BERT
city
New York is a city
BERTの損失関数 (“New” と “York” を独立に予測)
XLNetの損失関数 (自己回帰的に予測)
Audio Transformer [Liu20] [Yang20]
● Mockingjay [Liu20]: もう一つの音声版BERT
○ Speech BERT: 音声波形 -> 音声を離散化 -> 自然言語と同様に学習
○ Mockingjay: 音声波形 -> 連続値の特徴量に対してL1ロスでBERTを学習
○
● Mockingjay の multi-head attention は何を表している [Yang20]
○ 3つに分類されると報告
○ Global … 全体的な特徴(話者性など)
○ Vertical … 特定の音素の注視
○ Diagonal … 近傍の音素を考慮
S.-w. Yang et al., “Understanding Self-Attention of Self-Supervised Audio Transformers,” Interspeech2020.
A. T. Liu et al., “Mockingjay: Unsupervised speech representation learning with deep bidirectional transformer encoders,” ICASSP2020.
ありがとうございました

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )
 
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 

Ähnlich wie 国際会議 interspeech 2020 報告

Ähnlich wie 国際会議 interspeech 2020 報告 (20)

AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
 
ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成
 
Kameoka2016 miru08
Kameoka2016 miru08Kameoka2016 miru08
Kameoka2016 miru08
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
アナログ回路の民主化とプロの役割
アナログ回路の民主化とプロの役割アナログ回路の民主化とプロの役割
アナログ回路の民主化とプロの役割
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONTEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 
Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Icassp2018 発表参加報告 FFTNet, Tactron2紹介Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Icassp2018 発表参加報告 FFTNet, Tactron2紹介
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
 
IAD Kyoto
IAD KyotoIAD Kyoto
IAD Kyoto
 
B4学生の 深層学習への挑戦(未完)
B4学生の深層学習への挑戦(未完)B4学生の深層学習への挑戦(未完)
B4学生の 深層学習への挑戦(未完)
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
DTMでの音色検索を対象とした機械学習アルゴリズムの提案(for FIT2016)
DTMでの音色検索を対象とした機械学習アルゴリズムの提案(for FIT2016)DTMでの音色検索を対象とした機械学習アルゴリズムの提案(for FIT2016)
DTMでの音色検索を対象とした機械学習アルゴリズムの提案(for FIT2016)
 
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
 
Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をする
 
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
 
Statistical Machine Translation Overview
Statistical Machine Translation OverviewStatistical Machine Translation Overview
Statistical Machine Translation Overview
 

Mehr von Shinnosuke Takamichi

Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
 

Mehr von Shinnosuke Takamichi (20)

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
 

Kürzlich hochgeladen

Kürzlich hochgeladen (10)

論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 

国際会議 interspeech 2020 報告

  • 2. 発表者 稲熊 寛文 (京都大) 音声認識 塩田 さやか (都立大) 話者照合 柳田 智也 (奈良先端大) 音声合成 高道 慎之介 (東京大) 自己教師あり学習 公開版につき,顔写真を削除しました.
  • 3. Interspeech2020 ● ICASSP と並んで音声系トップカンファレンス ○ 本年度は2103件の投稿から1021件採択 (採択率:49%) ○ ● 2020/10/25 ~ 29にかけてオンライン開催 (本来は上海) ○ 1.5分のハイライトビデオと3.5分の質疑応答 ○ ● 論文は全てオンラインで公開されている ○ https://www.isca-speech.org/iscaweb/index.php/online-archive ○ 以降のスライドで登場する論文の図表は,ここより引用
  • 5. 所感 ● トレンド ○ Transformerモデル ○ Self-training / Pseudo labeling ○ オンラインストリーミング音声認識 ○ 非自己回帰end-to-end音声認識 ● セッション重複のため,リアルタイムで全ての発表を追うのは難しい ● 会議前に話題になっていた論文の発表に注目が集まっていた印象 ● 一学生として:短い発表の中で顔と名前を売るのは難しく感じた
  • 6. Self-training ● 音声のみで事前学習するCPC [Van den Oord+ 2019] やWav2vec [Schneider+ 2019] などとは異なり,対象のASRモデルで音声のみのデータ に対して認識を行う ● 得られたラベルと音声を新たなペアデータとしてデータ拡張 「Improved Noisy Student Training for Automatic Speech Recognition」 (Google) 「Iterative Pseudo-Labeling for Speech Recognition」 (Facebook) 手法(以下2-3を複数回繰り返す) 1. ペアデータで最初のモデルを学習 2. 追加の音声データを言語モデルを使って現在のモデルパラ メータで認識 3. これを擬似教師ラベルとして元のペアデータと合わせ ,SpecAugmentを使って学習
  • 7. Self-training Googleの工夫 ● Beam searchのスコアと出力系列長でフィルタリング ● 学習データとトークンの分布が近くなるようにサンプリング ● SpecAugmentの時間方向のマスクサイズをだんだん大きくしていくとgood ほぼ同様の手法 「Semi-supervised ASR by End-to-End Self-training」(Amazon) 「Semi-Supervised Learning with Data Augmentation for End-to-End ASR」(Nuance) 音声翻訳でも 「Self-Training for End-to-End Speech Translation」(Facebook) dev-clean dev-other test-clean test-other Google 1.6 3.4 1.7 3.4 Facebook 1.85 3.26 2.10 4.01
  • 8. Conformer (Google) TransformerエンコーダをCNNアーキテクチャで拡張(w/ LAS) ● Multi-head attention (MHA) の後にCNNモジュール追加 ● Macaron-styleのFeed-forward layer(MHAをサンドイッチ) ● MHA->CNNの順番がよい ● Relative positional encoding ● 活性化関数をReLUからSwish 現在,多くのフォローアップ論文が登場し, 様々なタスクに応用されている Gulati et al, “Conformer: Convolution-augmented Transformer for Speech Recognition”
  • 9. ContextNet (Google) Globalな情報を捉えるようCNNエンコーダを改良(w/ RNN-T) ● Squeeze-and-excitation (SE) layer ○ 入力全体を1つのベクトルに平均して非線形関数+sigmoidに通し,元の入 力に要素ごとにかける ● Depthwise separable convolutionによるCNNブロック ● パラメータ数 vs WERのトレードオフをチャネルサイズのスケールパラメータで 上手くコントロール可能 Han et al, “ContextNet: Improving Convolutional Neural Networks for Automatic Speech Recognition with Global Context”
  • 10. Conformer vs ContextNet 精度はほとんど同じ(フォローアップ論文でも同様) どちらもTransformerライクなlearning rate schedulingなので ,Transformerデコーダと親和性高い(LAS/RNN-Tにも使用可能) どちらもストリーミング認識に拡張可能で同等の精度 [Yu+ 2020]
  • 11. オンラインストリーミング音声認識 Two-pass model (Google) ● RNN-T -> Transformerリスコアリング (2nd pass) ● 全トークンを一度で入力できるため,LSTMより高速 ScoutNet (Microsoft) ● Triggered attention [Moritz+ 2019] をフレームレベルの アライメント情報を用いて改善 ● エンコーダで単語境界を推定するように学習 ● 推論時,各境界より過去のコンテキストで認識 ● トークン出力のレイテンシが抑えられる Li et al, “Parallel Rescoring with Transformer for Streaming On-Device Speech Recognition” Wang et al, “Low Latency End-to-End Streaming Speech Recognition with a Scout Network”
  • 12. Diarization+ASR Serialized output training (Microsoft) ● LASベースのpermutation invariant training (PIT) [Dong+ 2017]を使 わないsingle-channel multi-speaker ASR ● 任意の話者数に適用可能 ● 話し始めた順番に話者ごとに認識(話者数をカウント可能) 手法 ● 複数話者の仮説をspeaker changeラベル <sc>でconcat ● 全体の系列の最後にのみ<eos>をつける ● Overlap speechの開始時刻情報を使うことで のpermutationの計算量を定数に削減 ● Attentionの後(separationの後)にさらに LSTMをスタックすると良い Kanda et al, “Serialized Output Training for End-to-End Overlapped Speech Recognition”
  • 13. その他 ● All-in-One Transformer (MERL) ○ ASR, audio tagging, acoustic event detectionを1つのTransformerで行 う ○ Audio taggingの精度が改善 Moritz et al, “All-in-One Transformer: Unifying Speech Recognition, Audio Tagging, and Event Detection”
  • 15. 所感 ● 音響モデル(Text2melモデル) ○ 自己or非自己 回帰Transformer TTSを使用した合成 ○ 逐次音声合成(incremental/streaming TTS)の台頭 ←これの話が主 ○ ● ウェーブネットボコーダ ○ 課題:高速学習/推論・高品質 ○ 音声生成モデルや、音響工学の知見を生かしたモデル提案 ○ HiNet(位相と振幅をニューラルネットで予測し音声復元) ■ → HiNet + ニューラル残響モデルで収録音声の復元[Ai, et al.] ○ ソース・フィルタモデルの線形時不変フィルタを制御[Liu, et al.] ○ ● その他の発表トピック ○ 歌唱合成、韻律モデリング、パラ言語生成、テキスト処理及び評価 ○ 大規模多言語複数話者TTSの挑戦、50言語ID+複数話者ID[Yang, et al.] [Ai, et al.]Reverberation Modeling for Source-Filter-based Neural Vocoder, Interspeech 2020 [Liu, et al.]Neural Homomorphic Vocoder, Interspeech 2020 [Yang, et al.]Towards Universal Text-to-Speech, Interspeech 2020
  • 16. [Ma, et al., 2020]テキスト入力中に音声出力 k系列の入力後、音響特徴生成開始 → 最適な入出力長を決定不可 [Mohan, et al., 2020 Interspeech]入出力長制御に強化学習 → 環境からの観測で行動を選択し、その行動で環境が変化するモデル 行動を繰り返し、最終的な報酬を最大化する行動を学習 Incremental Text to Speech for Neural Sequence-to-Sequence Models using Reinforcement Learning [Ma, et al., 2020]“Incremental Text-to-Speech Synthesis with Prefix-to-Prefix Framework”, (https://arxiv.org/abs/1911.02750) [Mohan, et al., 2020 Interspeech] Incremental Text to Speech for Neural Sequence-to-Sequence Models using Reinforcement Learning, Interspeech 2020 処理の例 ①3単語入力し、1単語目を生成開始 ②argmax(注意スコア)が2単語目なら生成停止 ③4単語目を入力、①から同様に繰り返す
  • 18. アテンション分析 (a,b) 通常の音声合成、2step毎にREAD(READ、SPEAK、READ、SPEAK ...) 必要以上の入力を参照 → 不必要なREAD有 → 回避可能な遅延の存在 (c) 3 step毎にSPEAK 不必要なREADを削減 → 入力の不足 → 音声品質の低下 (d) 提案法 READ/ SPEAKの制御成功 ※灰色部分は利用不可な入力
  • 20. その他Interspeech2020 逐次音声合成の発表 [Stephenson, et al.] What the Future Brings: Investigating the Impact of Lookahead for Incremental Neural TTS  逐次音声合成の中間表現と、通常TTSとの類似性分析  2単語の単語先読みで94%の類似性(英語) [Ellinas, et al.] High Quality Streaming Speech Synthesis with Low, Sentence-Length-Independent Latency  CPU用End-to-End逐次音声合成の構築及び遅延評価  
  • 22. 全般 一般セッション: 7 ● Speaker recognition I, II ● Learning Techniques for Speaker Recognition I, II ● Speaker Embedding ● DNN Architectures for Speaker Recognition ● Speaker Recognition Challenges and Applications スペシャルセッション: 3 ● Large-Scale Evaluation of Short-Duration Speaker Verification ● The Interspeech 2020 Far Field Speaker Verification Challenge ● The Attacker’s Perspective on Automatic Speaker Verification
  • 23. 傾向 Speaker embedding ● x-vectorベースの手法でロスの変更、ネットワークの変更 ● より省データ、より短い話者表現 Short utterance Raw waveform の使用 Adversarial example への注目 ● spoofingとは異なる
  • 24. Wav2Spk: A Simple DNN Architecture for Learning Speaker Embeddings from Waveforms 入力特徴量をwaveformに   MFCC, VAD, CMVN → stacked of stride convolutions (wav2vec), temporal gating, instance normalization    フレーム長30ms, フレームシフト10msに相当 コサイン類似度
  • 25. Investigating Robustness of Adversarial Samples Detection for Automatic Speaker Verification 敵対的攻撃 データ拡張としての使用が多かった BIM(FGSMの拡張版)とJSMA 2種類の攻撃 敵対的攻撃検出 VGGベースのネットワーク+MFCC(conv層が必要)
  • 27. 自己教師あり学習と音声分野の潮流 ● 自己教師あり学習 ○ 教師のないデータを用いて,データ自らを教師とした表現を獲得 ○ 音声音響分野では,これから数年注目を浴びそう ■ ICML2020 Workshop “Self-supervision in audio and speech” ■ Interspeech2020 Special session “New trends in self-supervised speech processing” ←この発表のメイン ■ ● Interspeech2020の発表を分類 ○ 他分野の成功を受けて音声に輸入されたもの ←この発表のメイン ○ 音声工学に基づいて独自発展したもの
  • 28. 他分野の自己教師あり学習をそのまま輸入で きるのか? → できない.なぜ? ● 系列の分解能が高い (= 系列長が長い) ■ 波形: 16,000サンプル/秒〜. ■ ● 各サンプルの値は連続値である ■ 量子化しても2^16 (65536) 段階〜 ■ ● 任意長の系列である ■ これは自然言語と同じ
  • 29. Speech-BERT と BERT の 同時ファインチューニング [Siriwardhana20] ● Speech-BERT [Baevski19] ○ 10ms-stride のCNN … ダウンサンプリング ○ Gumbel-softmax … 量子化 ○ 処理後は,100サンプル/秒の離散シンボル ■ 自然言語と同様にBERTを学習可能 ■ (マスクされた入力を予測する) ■ ● 音声情報・言語情報を使う音声感情認識モデルの学習 ○ それぞれのCLS (classification) トークンを結合し,shallow fusion S. Siriwardhana et al. “Jointly Fine-Tuning “BERT-Like” Self Supervised Models to Improve Multimodal Speech Emotion Recognition,” Interspeech2020. https://arxiv.org/pdf/1910.05453.pdf C L S Speech-BERT C L S BERT Quantized speech BPE-tokenized text
  • 30. Speech-XLNet [Song20] ● 前提:BERT から XLNet へ ○ マスクされたトークンの独立予測から自己回帰的予測へ ● Speech-XLNet ○ 基本的にはXLNet と同じだが,トークンは連続値のベクトル ○ Huber loss を採用 (L1/L2ロスはうまく動かなかった) ■ L1とL2ロスの切り替え X. Song et al., “Speech-XLNet: Unsupervised Acoustic Model Pretraining for Self-Attention Networks,” Interspeech2020. New York is a BERT city New York is a city BERTの損失関数 (“New” と “York” を独立に予測) XLNetの損失関数 (自己回帰的に予測)
  • 31. Audio Transformer [Liu20] [Yang20] ● Mockingjay [Liu20]: もう一つの音声版BERT ○ Speech BERT: 音声波形 -> 音声を離散化 -> 自然言語と同様に学習 ○ Mockingjay: 音声波形 -> 連続値の特徴量に対してL1ロスでBERTを学習 ○ ● Mockingjay の multi-head attention は何を表している [Yang20] ○ 3つに分類されると報告 ○ Global … 全体的な特徴(話者性など) ○ Vertical … 特定の音素の注視 ○ Diagonal … 近傍の音素を考慮 S.-w. Yang et al., “Understanding Self-Attention of Self-Supervised Audio Transformers,” Interspeech2020. A. T. Liu et al., “Mockingjay: Unsupervised speech representation learning with deep bidirectional transformer encoders,” ICASSP2020.