Suche senden
Hochladen
Nishimura22slp03 presentation
•
0 gefällt mir
•
310 views
Y
Yuki Saito
Folgen
Presentation at SLP (Mar. 01, 2022)
Weniger lesen
Mehr lesen
Wissenschaft
Melden
Teilen
Melden
Teilen
1 von 26
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Empfohlen
Nakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
Deep Learning JP
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
研究発表のためのプレゼンテーション技術
研究発表のためのプレゼンテーション技術
Shinnosuke Takamichi
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
Empfohlen
Nakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
Deep Learning JP
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
研究発表のためのプレゼンテーション技術
研究発表のためのプレゼンテーション技術
Shinnosuke Takamichi
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
Deep Learning JP
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
Tomoki Hayashi
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
STAIR Lab, Chiba Institute of Technology
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Yuma Koizumi
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
Koichiro Mori
音声生成の基礎と音声学
音声生成の基礎と音声学
Akinori Ito
研究効率化Tips Ver.2
研究効率化Tips Ver.2
cvpaper. challenge
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
hirai23slp03.pdf
hirai23slp03.pdf
Yuki Saito
fujii22apsipa_asc
fujii22apsipa_asc
Yuki Saito
Weitere ähnliche Inhalte
Was ist angesagt?
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
Deep Learning JP
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
Tomoki Hayashi
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
STAIR Lab, Chiba Institute of Technology
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Yuma Koizumi
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
Koichiro Mori
音声生成の基礎と音声学
音声生成の基礎と音声学
Akinori Ito
研究効率化Tips Ver.2
研究効率化Tips Ver.2
cvpaper. challenge
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
Was ist angesagt?
(20)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
音情報処理における特徴表現
音情報処理における特徴表現
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
音声生成の基礎と音声学
音声生成の基礎と音声学
研究効率化Tips Ver.2
研究効率化Tips Ver.2
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Interspeech2022 参加報告
Interspeech2022 参加報告
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
Mehr von Yuki Saito
hirai23slp03.pdf
hirai23slp03.pdf
Yuki Saito
fujii22apsipa_asc
fujii22apsipa_asc
Yuki Saito
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
Yuki Saito
saito22research_talk_at_NUS
saito22research_talk_at_NUS
Yuki Saito
Saito21asj Autumn Meeting
Saito21asj Autumn Meeting
Yuki Saito
Saito2103slp
Saito2103slp
Yuki Saito
Interspeech2020 reading
Interspeech2020 reading
Yuki Saito
Saito20asj_autumn
Saito20asj_autumn
Yuki Saito
ICASSP読み会2020
ICASSP読み会2020
Yuki Saito
Saito20asj s slide_published
Saito20asj s slide_published
Yuki Saito
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
Yuki Saito
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito
Saito19asj_s
Saito19asj_s
Yuki Saito
Une18apsipa
Une18apsipa
Yuki Saito
Saito18sp03
Saito18sp03
Yuki Saito
Saito18asj_s
Saito18asj_s
Yuki Saito
Saito17asjA
Saito17asjA
Yuki Saito
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
Yuki Saito
miyoshi17sp07
miyoshi17sp07
Yuki Saito
miyoshi2017asj
miyoshi2017asj
Yuki Saito
Mehr von Yuki Saito
(20)
hirai23slp03.pdf
hirai23slp03.pdf
fujii22apsipa_asc
fujii22apsipa_asc
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
saito22research_talk_at_NUS
saito22research_talk_at_NUS
Saito21asj Autumn Meeting
Saito21asj Autumn Meeting
Saito2103slp
Saito2103slp
Interspeech2020 reading
Interspeech2020 reading
Saito20asj_autumn
Saito20asj_autumn
ICASSP読み会2020
ICASSP読み会2020
Saito20asj s slide_published
Saito20asj s slide_published
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
Saito19asj_s
Saito19asj_s
Une18apsipa
Une18apsipa
Saito18sp03
Saito18sp03
Saito18asj_s
Saito18asj_s
Saito17asjA
Saito17asjA
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
miyoshi17sp07
miyoshi17sp07
miyoshi2017asj
miyoshi2017asj
Nishimura22slp03 presentation
1.
第140回 音声言語情報処理研究会 (SIG-SLP) 西邑勇人1 ・齋藤佑樹1 ・高道慎之介1 ・橘健太郎2 ・猿渡洋1 1:
東京大学 2: LINE株式会社 対話履歴の韻律情報を考慮した共 感的対話音声合成
2.
対話とは: 向かい合って話し合うこと [デジタル大辞泉] タスク指向型対話:
ユーザーの要求に答えることが目的 例: 旅行案内,レストラン予約 非タスク指向型対話: コミュニケーションが目的 例: 雑談 共感とは: 相手の内側に入り込もうとする能動的な試み [Davis+18] ≠ 同調: 相手と感情を同一化する 研究背景 01/25
3.
共感的対話音声合成: [齋藤+22] 共感の主要素である,感情と韻律を音声合成に付与すること 対話相手との対話履歴を考慮し,次の応答に寄与する音声特徴量を推定 実現のためには: テキスト情報だけでなく音声情報も必要 (クロスモーダル) 人間は,対話の言語的・韻律的特徴から文脈を理解し応答する 研究背景 02/25 どうした? 先生,悲しいお知らせが
... なになに?
4.
従来法: 対話履歴のテキスト情報を用いた対話音声合成 [Guo+20] 対話履歴を
BERT に入力し embedding として音響モデルへ条件付け 問題点: テキスト情報のみの利用に留まる 音声のふるまいは考慮できない 提案法: テキスト・音声情報両方を用いた対話音声合成 テキスト情報は従来法と同様に利用 音声情報も embedding とすることでテキスト情報と同様の扱いをする 結果: 従来法より自然な対話音声合成を実現 本発表の概要 03/25
5.
研究背景 従来法: 対話履歴のテキスト情報を利用した対話音声合成 テキスト・音声情報を利用した対話音声合成 実験的評価 まとめ 目次 04/25
6.
DNN音声合成: DNN音響モデルでテキストから音声を合成する 共感とは: FastSpeech2 (FS2):
[Ren+21] pitch, energy を明示的にモデル化 Encoder-Decoder 型 非自己回帰型モデルで高速 本研究のベースモデル DNN音声合成 Pythonで学ぶ音声合成 機械学習実践シリーズ: 山本, 高道 05/25
7.
全体図: Encoder-Decoder 型モデルで利用可能なアーキテクチャ 従来法: 対話履歴のテキスト情報を利用した対話音声合成 Guo+20
06/25
8.
Step1: 対話履歴のテキスト情報を BERT
を用いて embedding とする 以降,これを Chat history と呼ぶ 従来法: 対話履歴のテキスト情報を利用した対話音声合成 Guo+20 07/25
9.
従来法: 対話履歴のテキスト情報を利用した対話音声合成 Guo+20 Step2: Chat
history を Conversational Context Encoder (CCE) へ入力し,音響モ デルへ条件付ける CCEでは過去の系列のみを圧縮している 08/25
10.
研究背景 従来法: 対話履歴のテキスト情報を利用した対話音声合成 テキスト・音声情報を利用した対話音声合成 実験的評価 まとめ 目次 09/25
11.
提案法の動機 テキスト音声合成における,one-to-many 問題 例: どうしたの? 対話履歴の音声情報も考慮し,音声特徴量の推定を容易にしたい テキスト情報・音声情報のクロスモーダルの活用 独立にテキストと音声を処理するのではなく,うまく組み合わせたい 10/25
12.
テキスト情報・音声情報両方の利用 音声情報はメルスペクトログラムとして利用 Prosody encoder によりテキスト同様に音声を
embedding として扱う クロスモーダルを活かすための Attention 機構の導入 当該発話のテキスト情報を音声に活用するため Attention を導入 学習を容易にするための Curriculum Learning の導入 通常通りの一度での学習は困難であった 音響モデルは別途学習することで学習を容易にする工夫 提案法: テキスト・音声情報を利用した対話音声合成 11/25
13.
対話履歴のテキスト・音声情報を Cross Modal
CCE (CMCCE) へ入力し,出力され た Context embedding を音響モデルへ条件づける 提案法: 全体図 合成対象(利用不可) 12/25
14.
テキスト情報は Sentence BERT
(従来法),音声情報は Prosody encoder へ入力 出力された Sentence/Prosody embedding を従来法と同様の CCE へ入力 提案法: Cross-Modal CCE CCE 13/25
15.
Prosody encoder (左図): メルスペクトログラムから
Prosody embedding を出力 Cross-Modal CCE w/ Attention (中央,右図): Attention の query として用いることでテキスト情報を音声情報にも活用 提案法: Prosody encoder & Cross-Modal CCE w/ Attention 音声 テキスト 14/25
16.
動機: 対話履歴を考慮した一度での学習の困難さ パラメータ数を減らし学習を容易にするための工夫を導入 提案法: Curriculum
Learning 15/25
17.
Stage1: 当該発話の音声 (正解音声)
の Prosody embedding によって FS2 を条件 付けし,Prosody encoder と FS2 を学習 提案法: Curriculum Learning 16/25
18.
Stage2: 対話履歴を CCE
によって Content embeding へと変換 Content embedding と Prosody embedding の間の MSE Loss を計算し学習 提案法: Curriculum Learning 17/25
19.
研究背景 従来法: 対話履歴のテキスト情報を利用した対話音声合成 テキスト・音声情報を利用した対話音声合成 実験的評価 まとめ 目次 18/25
20.
実験的評価: 実験条件 データセット STUDIES
[齋藤+22] 学習 / 検証 / 評価データ 2,209文 / 221文 / 211文 事前学習用データ JSUT [Takamichi+20] 音声パラメータ 80次元のメルスペクトログラム 最適化アルゴリズム Adam [Kingma+15] (学習率 0.0625) 音響モデル FastSpeech2 (FS2) [Ren+21] 波形生成 HiFi-GAN [Kong+20] 対話履歴の長さ 10 (テキスト情報はシチュエーション情報も含む ) Teacher forcing あり (対話履歴に用いた音声は,正解音声のもの ) 比較手法 TMCCE: 従来法 [Guo+20].テキスト情報を用いたもの SMCCE: 提案法1.音声情報のみ用いたもの CMCCE: 提案法2.テキスト・音声情報を用いたもの 19/25
21.
考慮する条件: Attn: CCEにおいて,Attention を利用したもの.SM
では利用できない CL: Curriculum Learning の略 MS: Prosody encoder の事前学習を行ったかどうか 評価手法: 発話自然性: その発話が自然かどうかを5段階で評価 対話自然性: 一連の対話が自然なものであったかを5段階で評価 評価するべき手法の数が多かったため,2段階で評価を行った 評価方法 20/25
22.
Step1: 各手法毎にMOS評価を行い,発話自然性と対話自然性の平均が最良の組 み合わせを選択した(太字) 評価者数: 50名
× 2 (発話・対話) × 3 (各手法) = 300名 (手法毎に4発話評価) 実験的評価: 各手法内での主観評価結果 21/25
23.
Step2: Step1 で選択された手法に従来法などを混ぜて主観評価を行った 提案法2による従来法からの自然性の改善 実験的評価:
最良手法間での主観評価結果 http://sython.org/Corpus/STUDIES/demo_empTTS.html (従来法) (提案法1) (提案法2) (正解音声で条件付) (従来法+CL) (FastSpeech2) 22/25
24.
Step2: Step1 で選択された手法に従来法などを混ぜて主観評価を行った 音声の対話履歴のみ(提案法1)でも従来法と同等の対話自然性を達成 実験的評価:
最良手法間での主観評価結果 http://sython.org/Corpus/STUDIES/demo_empTTS.html (従来法) (提案法1) (提案法2) (正解音声で条件付) (従来法+CL) (FastSpeech2) 23/25
25.
研究背景 従来法: 対話履歴のテキスト情報を利用した対話音声合成 テキスト・音声情報を利用した対話音声合成 実験的評価 まとめ 目次 24/25
26.
目的: 共感的対話音声合成の品質改善 提案手法: テキスト情報・音声情報両方の利用 クロスモーダルを活かすための Attention
機構の導入 学習を容易にするための Curriculum Learning の導入 結果: 従来法より自然な対話音声合成を実現 今後の予定: 発話単位の embedding から,文単位の embedding への変更 Prosody encoder の強化 (自己教師ありモデルの採用 e.g. Wav2vec2.0) まとめ 25/25
Jetzt herunterladen