SlideShare ist ein Scribd-Unternehmen logo
1 von 26
Downloaden Sie, um offline zu lesen
第140回 音声言語情報処理研究会 (SIG-SLP)
西邑勇人1
・齋藤佑樹1
・高道慎之介1
・橘健太郎2
・猿渡洋1
1: 東京大学 2: LINE株式会社
対話履歴の韻律情報を考慮した共
感的対話音声合成
対話とは: 向かい合って話し合うこと [デジタル大辞泉]
タスク指向型対話: ユーザーの要求に答えることが目的
例: 旅行案内,レストラン予約
非タスク指向型対話: コミュニケーションが目的
例: 雑談
共感とは:
相手の内側に入り込もうとする能動的な試み [Davis+18]
≠ 同調: 相手と感情を同一化する
研究背景
01/25
共感的対話音声合成: [齋藤+22]
共感の主要素である,感情と韻律を音声合成に付与すること
対話相手との対話履歴を考慮し,次の応答に寄与する音声特徴量を推定
実現のためには:
テキスト情報だけでなく音声情報も必要 (クロスモーダル)
人間は,対話の言語的・韻律的特徴から文脈を理解し応答する
研究背景
02/25
どうした?
先生,悲しいお知らせが ...
なになに?
従来法: 対話履歴のテキスト情報を用いた対話音声合成 [Guo+20]
対話履歴を BERT に入力し embedding として音響モデルへ条件付け
問題点: テキスト情報のみの利用に留まる
音声のふるまいは考慮できない
提案法: テキスト・音声情報両方を用いた対話音声合成
テキスト情報は従来法と同様に利用
音声情報も embedding とすることでテキスト情報と同様の扱いをする
結果: 従来法より自然な対話音声合成を実現
本発表の概要
03/25
研究背景
従来法: 対話履歴のテキスト情報を利用した対話音声合成
テキスト・音声情報を利用した対話音声合成
実験的評価
まとめ
目次
04/25
DNN音声合成: DNN音響モデルでテキストから音声を合成する
共感とは:
FastSpeech2 (FS2): [Ren+21]
pitch, energy を明示的にモデル化
Encoder-Decoder 型
非自己回帰型モデルで高速
本研究のベースモデル
DNN音声合成
Pythonで学ぶ音声合成 機械学習実践シリーズ: 山本, 高道 05/25
全体図:
Encoder-Decoder 型モデルで利用可能なアーキテクチャ
従来法: 対話履歴のテキスト情報を利用した対話音声合成
Guo+20 06/25
Step1: 対話履歴のテキスト情報を BERT を用いて embedding とする
以降,これを Chat history と呼ぶ
従来法: 対話履歴のテキスト情報を利用した対話音声合成
Guo+20 07/25
従来法: 対話履歴のテキスト情報を利用した対話音声合成
Guo+20
Step2: Chat history を Conversational Context Encoder (CCE) へ入力し,音響モ
デルへ条件付ける
CCEでは過去の系列のみを圧縮している
08/25
研究背景
従来法: 対話履歴のテキスト情報を利用した対話音声合成
テキスト・音声情報を利用した対話音声合成
実験的評価
まとめ
目次
09/25
提案法の動機
テキスト音声合成における,one-to-many 問題
例: どうしたの?
対話履歴の音声情報も考慮し,音声特徴量の推定を容易にしたい
テキスト情報・音声情報のクロスモーダルの活用
独立にテキストと音声を処理するのではなく,うまく組み合わせたい
10/25
テキスト情報・音声情報両方の利用
音声情報はメルスペクトログラムとして利用
Prosody encoder によりテキスト同様に音声を embedding として扱う
クロスモーダルを活かすための Attention 機構の導入
当該発話のテキスト情報を音声に活用するため Attention を導入
学習を容易にするための Curriculum Learning の導入
通常通りの一度での学習は困難であった
音響モデルは別途学習することで学習を容易にする工夫
提案法: テキスト・音声情報を利用した対話音声合成
11/25
対話履歴のテキスト・音声情報を Cross Modal CCE (CMCCE) へ入力し,出力され
た Context embedding を音響モデルへ条件づける
提案法: 全体図
合成対象(利用不可)
12/25
テキスト情報は Sentence BERT (従来法),音声情報は Prosody encoder へ入力
出力された Sentence/Prosody embedding を従来法と同様の CCE へ入力
提案法: Cross-Modal CCE
CCE
13/25
Prosody encoder (左図):
メルスペクトログラムから Prosody embedding を出力
Cross-Modal CCE w/ Attention (中央,右図):
Attention の query として用いることでテキスト情報を音声情報にも活用
提案法: Prosody encoder & Cross-Modal CCE w/ Attention
音声 テキスト
14/25
動機: 対話履歴を考慮した一度での学習の困難さ
パラメータ数を減らし学習を容易にするための工夫を導入
提案法: Curriculum Learning
15/25
Stage1: 当該発話の音声 (正解音声) の Prosody embedding によって FS2 を条件
付けし,Prosody encoder と FS2 を学習
提案法: Curriculum Learning
16/25
Stage2: 対話履歴を CCE によって Content embeding へと変換
Content embedding と Prosody embedding の間の MSE Loss を計算し学習
提案法: Curriculum Learning
17/25
研究背景
従来法: 対話履歴のテキスト情報を利用した対話音声合成
テキスト・音声情報を利用した対話音声合成
実験的評価
まとめ
目次
18/25
実験的評価: 実験条件
データセット STUDIES [齋藤+22]
学習 / 検証 / 評価データ 2,209文 / 221文 / 211文
事前学習用データ JSUT [Takamichi+20]
音声パラメータ 80次元のメルスペクトログラム
最適化アルゴリズム Adam [Kingma+15] (学習率 0.0625)
音響モデル FastSpeech2 (FS2) [Ren+21]
波形生成 HiFi-GAN [Kong+20]
対話履歴の長さ 10 (テキスト情報はシチュエーション情報も含む )
Teacher forcing あり (対話履歴に用いた音声は,正解音声のもの )
比較手法 TMCCE: 従来法 [Guo+20].テキスト情報を用いたもの
SMCCE: 提案法1.音声情報のみ用いたもの
CMCCE: 提案法2.テキスト・音声情報を用いたもの
19/25
考慮する条件:
Attn: CCEにおいて,Attention を利用したもの.SM では利用できない
CL: Curriculum Learning の略
MS: Prosody encoder の事前学習を行ったかどうか
評価手法:
発話自然性: その発話が自然かどうかを5段階で評価
対話自然性: 一連の対話が自然なものであったかを5段階で評価
評価するべき手法の数が多かったため,2段階で評価を行った
評価方法
20/25
Step1: 各手法毎にMOS評価を行い,発話自然性と対話自然性の平均が最良の組
み合わせを選択した(太字)
評価者数: 50名 × 2 (発話・対話) × 3 (各手法) = 300名 (手法毎に4発話評価)
実験的評価: 各手法内での主観評価結果
21/25
Step2: Step1 で選択された手法に従来法などを混ぜて主観評価を行った
提案法2による従来法からの自然性の改善
実験的評価: 最良手法間での主観評価結果
http://sython.org/Corpus/STUDIES/demo_empTTS.html
(従来法)
(提案法1)
(提案法2)
(正解音声で条件付)
(従来法+CL)
(FastSpeech2)
22/25
Step2: Step1 で選択された手法に従来法などを混ぜて主観評価を行った
音声の対話履歴のみ(提案法1)でも従来法と同等の対話自然性を達成
実験的評価: 最良手法間での主観評価結果
http://sython.org/Corpus/STUDIES/demo_empTTS.html
(従来法)
(提案法1)
(提案法2)
(正解音声で条件付)
(従来法+CL)
(FastSpeech2)
23/25
研究背景
従来法: 対話履歴のテキスト情報を利用した対話音声合成
テキスト・音声情報を利用した対話音声合成
実験的評価
まとめ
目次
24/25
目的: 共感的対話音声合成の品質改善
提案手法:
テキスト情報・音声情報両方の利用
クロスモーダルを活かすための Attention 機構の導入
学習を容易にするための Curriculum Learning の導入
結果: 従来法より自然な対話音声合成を実現
今後の予定:
発話単位の embedding から,文単位の embedding への変更
Prosody encoder の強化 (自己教師ありモデルの採用 e.g. Wav2vec2.0)
まとめ
25/25

Weitere ähnliche Inhalte

Was ist angesagt?

音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組みAtsushi_Ando
 
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...Deep Learning JP
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスShinnosuke Takamichi
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価Shinnosuke Takamichi
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査Tomoki Hayashi
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろうShinnosuke Takamichi
 
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)STAIR Lab, Chiba Institute of Technology
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術Yuma Koizumi
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Shinnosuke Takamichi
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響NU_I_TODALAB
 
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論Deep Learning JP
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向Koichiro Mori
 
音声生成の基礎と音声学
音声生成の基礎と音声学音声生成の基礎と音声学
音声生成の基礎と音声学Akinori Ito
 
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパスShinnosuke Takamichi
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析Shinnosuke Takamichi
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 

Was ist angesagt? (20)

音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
 
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
 
音声生成の基礎と音声学
音声生成の基礎と音声学音声生成の基礎と音声学
音声生成の基礎と音声学
 
研究効率化Tips Ver.2
研究効率化Tips Ver.2研究効率化Tips Ver.2
研究効率化Tips Ver.2
 
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 

Mehr von Yuki Saito

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdfYuki Saito
 
fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_ascYuki Saito
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfYuki Saito
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUSYuki Saito
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn MeetingYuki Saito
 
Interspeech2020 reading
Interspeech2020 readingInterspeech2020 reading
Interspeech2020 readingYuki Saito
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumnYuki Saito
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020Yuki Saito
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_publishedYuki Saito
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNAYuki Saito
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationYuki Saito
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会Yuki Saito
 
miyoshi2017asj
miyoshi2017asjmiyoshi2017asj
miyoshi2017asjYuki Saito
 

Mehr von Yuki Saito (20)

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdf
 
fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_asc
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUS
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn Meeting
 
Saito2103slp
Saito2103slpSaito2103slp
Saito2103slp
 
Interspeech2020 reading
Interspeech2020 readingInterspeech2020 reading
Interspeech2020 reading
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumn
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_published
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
 
Saito19asj_s
Saito19asj_sSaito19asj_s
Saito19asj_s
 
Une18apsipa
Une18apsipaUne18apsipa
Une18apsipa
 
Saito18sp03
Saito18sp03Saito18sp03
Saito18sp03
 
Saito18asj_s
Saito18asj_sSaito18asj_s
Saito18asj_s
 
Saito17asjA
Saito17asjASaito17asjA
Saito17asjA
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
 
miyoshi17sp07
miyoshi17sp07miyoshi17sp07
miyoshi17sp07
 
miyoshi2017asj
miyoshi2017asjmiyoshi2017asj
miyoshi2017asj
 

Nishimura22slp03 presentation