Suche senden
Hochladen
変調スペクトルを考慮したHMM音声合成
•
3 gefällt mir
•
6,875 views
奈良先端大 情報科学研究科
Folgen
Technologie
Melden
Teilen
Melden
Teilen
1 von 16
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Empfohlen
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
NU_I_TODALAB
音声認識の基礎
音声認識の基礎
Akinori Ito
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
Shinnosuke Takamichi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
Empfohlen
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
NU_I_TODALAB
音声認識の基礎
音声認識の基礎
Akinori Ito
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
Shinnosuke Takamichi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
NU_I_TODALAB
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
NU_I_TODALAB
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
NU_I_TODALAB
音声生成の基礎と音声学
音声生成の基礎と音声学
Akinori Ito
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク
NU_I_TODALAB
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
Deep Learning JP
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
Kitamura Laboratory
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
Keisuke Imoto
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
Shinnosuke Takamichi
フィラーを含む自発音声合成モデルの品質低下原因の調査と一貫性保証による改善
フィラーを含む自発音声合成モデルの品質低下原因の調査と一貫性保証による改善
Yuta Matsunaga
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
バイノーラル信号音源分離における両耳事前分布モデルの考察
バイノーラル信号音源分離における両耳事前分布モデルの考察
奈良先端大 情報科学研究科
Recurshare 〜インターネットレスにアプリ拡散〜
Recurshare 〜インターネットレスにアプリ拡散〜
Ubi NAIST
Weitere ähnliche Inhalte
Was ist angesagt?
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
NU_I_TODALAB
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
NU_I_TODALAB
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
NU_I_TODALAB
音声生成の基礎と音声学
音声生成の基礎と音声学
Akinori Ito
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク
NU_I_TODALAB
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
Deep Learning JP
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
Kitamura Laboratory
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
Keisuke Imoto
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
Shinnosuke Takamichi
フィラーを含む自発音声合成モデルの品質低下原因の調査と一貫性保証による改善
フィラーを含む自発音声合成モデルの品質低下原因の調査と一貫性保証による改善
Yuta Matsunaga
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
Was ist angesagt?
(20)
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
音声生成の基礎と音声学
音声生成の基礎と音声学
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク
深層学習を利用した音声強調
深層学習を利用した音声強調
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Interspeech2022 参加報告
Interspeech2022 参加報告
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
フィラーを含む自発音声合成モデルの品質低下原因の調査と一貫性保証による改善
フィラーを含む自発音声合成モデルの品質低下原因の調査と一貫性保証による改善
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Andere mochten auch
バイノーラル信号音源分離における両耳事前分布モデルの考察
バイノーラル信号音源分離における両耳事前分布モデルの考察
奈良先端大 情報科学研究科
Recurshare 〜インターネットレスにアプリ拡散〜
Recurshare 〜インターネットレスにアプリ拡散〜
Ubi NAIST
The NAIST Text-to-Speech System for Blizzard Challenge 2015
The NAIST Text-to-Speech System for Blizzard Challenge 2015
Shinnosuke Takamichi
不完全な文の構文解析に基づく同時音声翻訳
不完全な文の構文解析に基づく同時音声翻訳
奈良先端大 情報科学研究科
第77回MBL研究会 "多様なIoTデータストリームをクラウドレスで分散処理するミドルウェアの設計"
第77回MBL研究会 "多様なIoTデータストリームをクラウドレスで分散処理するミドルウェアの設計"
Ubi NAIST
Scan Segmentation Approach to Magnify Detection Sensitivity for Tiny Hardware...
Scan Segmentation Approach to Magnify Detection Sensitivity for Tiny Hardware...
奈良先端大 情報科学研究科
コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)
コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)
Shinya Takamaeda-Y
マルチパラダイム型高水準ハードウェア設計環境の検討
マルチパラダイム型高水準ハードウェア設計環境の検討
Shinya Takamaeda-Y
深層リカレントニューラルネットワークを用いた日本語述語項構造解析
深層リカレントニューラルネットワークを用いた日本語述語項構造解析
Hiroki Ouchi
Andere mochten auch
(9)
バイノーラル信号音源分離における両耳事前分布モデルの考察
バイノーラル信号音源分離における両耳事前分布モデルの考察
Recurshare 〜インターネットレスにアプリ拡散〜
Recurshare 〜インターネットレスにアプリ拡散〜
The NAIST Text-to-Speech System for Blizzard Challenge 2015
The NAIST Text-to-Speech System for Blizzard Challenge 2015
不完全な文の構文解析に基づく同時音声翻訳
不完全な文の構文解析に基づく同時音声翻訳
第77回MBL研究会 "多様なIoTデータストリームをクラウドレスで分散処理するミドルウェアの設計"
第77回MBL研究会 "多様なIoTデータストリームをクラウドレスで分散処理するミドルウェアの設計"
Scan Segmentation Approach to Magnify Detection Sensitivity for Tiny Hardware...
Scan Segmentation Approach to Magnify Detection Sensitivity for Tiny Hardware...
コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)
コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)
マルチパラダイム型高水準ハードウェア設計環境の検討
マルチパラダイム型高水準ハードウェア設計環境の検討
深層リカレントニューラルネットワークを用いた日本語述語項構造解析
深層リカレントニューラルネットワークを用いた日本語述語項構造解析
Mehr von 奈良先端大 情報科学研究科
テレコミュニケーションを支援してみよう
テレコミュニケーションを支援してみよう
奈良先端大 情報科学研究科
マイコンと機械学習を使って行動認識システムを作ろう
マイコンと機械学習を使って行動認識システムを作ろう
奈良先端大 情報科学研究科
5G時代を支えるNFVによるネットワーク最適設計
5G時代を支えるNFVによるネットワーク最適設計
奈良先端大 情報科学研究科
21.Raspberry Piを用いたIoTアプリの開発
21.Raspberry Piを用いたIoTアプリの開発
奈良先端大 情報科学研究科
20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析
20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析
奈良先端大 情報科学研究科
11.実装の脆弱性を利用して強力な暗号を解読してみよう!
11.実装の脆弱性を利用して強力な暗号を解読してみよう!
奈良先端大 情報科学研究科
8. ミニ・スーパコンピュータを自作しよう!
8. ミニ・スーパコンピュータを自作しよう!
奈良先端大 情報科学研究科
16. マイコンと機械学習を使って行動認識システムを作ろう
16. マイコンと機械学習を使って行動認識システムを作ろう
奈良先端大 情報科学研究科
15. テレイグジスタンスシステムを制作してみよう
15. テレイグジスタンスシステムを制作してみよう
奈良先端大 情報科学研究科
14. ビデオシースルーHMDで視覚拡張の世界を体感しよう
14. ビデオシースルーHMDで視覚拡張の世界を体感しよう
奈良先端大 情報科学研究科
19. 生物に学ぶ人工知能とロボット制御
19. 生物に学ぶ人工知能とロボット制御
奈良先端大 情報科学研究科
13. SDRで学ぶ無線通信
13. SDRで学ぶ無線通信
奈良先端大 情報科学研究科
18. 計測に基づいた写実的なコンピュータグラフィクスの生成法
18. 計測に基づいた写実的なコンピュータグラフィクスの生成法
奈良先端大 情報科学研究科
21. 人の動作・行動センシングに基づく拡張現実感システムの開発
21. 人の動作・行動センシングに基づく拡張現実感システムの開発
奈良先端大 情報科学研究科
20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発
20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発
奈良先端大 情報科学研究科
9. マイコンと機械学習を使って行動認識システムを作ろう
9. マイコンと機械学習を使って行動認識システムを作ろう
奈良先端大 情報科学研究科
6. 生物に学ぶ人工知能とロボット制御
6. 生物に学ぶ人工知能とロボット制御
奈良先端大 情報科学研究科
14. モバイルエージェントによる並列分散学習システムの構築
14. モバイルエージェントによる並列分散学習システムの構築
奈良先端大 情報科学研究科
17. 100台の小型ロボットを協調させよう
17. 100台の小型ロボットを協調させよう
奈良先端大 情報科学研究科
5. ミニ・スーパコンピュータを自作しよう!
5. ミニ・スーパコンピュータを自作しよう!
奈良先端大 情報科学研究科
Mehr von 奈良先端大 情報科学研究科
(20)
テレコミュニケーションを支援してみよう
テレコミュニケーションを支援してみよう
マイコンと機械学習を使って行動認識システムを作ろう
マイコンと機械学習を使って行動認識システムを作ろう
5G時代を支えるNFVによるネットワーク最適設計
5G時代を支えるNFVによるネットワーク最適設計
21.Raspberry Piを用いたIoTアプリの開発
21.Raspberry Piを用いたIoTアプリの開発
20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析
20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析
11.実装の脆弱性を利用して強力な暗号を解読してみよう!
11.実装の脆弱性を利用して強力な暗号を解読してみよう!
8. ミニ・スーパコンピュータを自作しよう!
8. ミニ・スーパコンピュータを自作しよう!
16. マイコンと機械学習を使って行動認識システムを作ろう
16. マイコンと機械学習を使って行動認識システムを作ろう
15. テレイグジスタンスシステムを制作してみよう
15. テレイグジスタンスシステムを制作してみよう
14. ビデオシースルーHMDで視覚拡張の世界を体感しよう
14. ビデオシースルーHMDで視覚拡張の世界を体感しよう
19. 生物に学ぶ人工知能とロボット制御
19. 生物に学ぶ人工知能とロボット制御
13. SDRで学ぶ無線通信
13. SDRで学ぶ無線通信
18. 計測に基づいた写実的なコンピュータグラフィクスの生成法
18. 計測に基づいた写実的なコンピュータグラフィクスの生成法
21. 人の動作・行動センシングに基づく拡張現実感システムの開発
21. 人の動作・行動センシングに基づく拡張現実感システムの開発
20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発
20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発
9. マイコンと機械学習を使って行動認識システムを作ろう
9. マイコンと機械学習を使って行動認識システムを作ろう
6. 生物に学ぶ人工知能とロボット制御
6. 生物に学ぶ人工知能とロボット制御
14. モバイルエージェントによる並列分散学習システムの構築
14. モバイルエージェントによる並列分散学習システムの構築
17. 100台の小型ロボットを協調させよう
17. 100台の小型ロボットを協調させよう
5. ミニ・スーパコンピュータを自作しよう!
5. ミニ・スーパコンピュータを自作しよう!
Kürzlich hochgeladen
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
Kürzlich hochgeladen
(8)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
変調スペクトルを考慮したHMM音声合成
1.
日本音響学会 2013年 秋季研究発表会 2-7-10 変調スペクトルを考慮したHMM音声合成 高道
慎之介 戸田 智基 Graham Neubig Sakriani Sakti 中村 哲 (奈良先端大) 2013©Shinnosuke TAKAMICHI AHC-Lab, IS, NAIST 09/26/2013
2.
発表概要 問題: HMM音声合成
[Zen et al., 2009.] の音質劣化 – HMMの平滑化処理により発生 – 平滑化の影響を定量的に表現する特徴量とは? 平滑化を表現する特徴量とは?: – パラメータ系列の分散 (GV: Global Variance) [Toda et al., 2007.] – 系列の変調スペクトル (MS: Modulation Spectrum)を本発表で導入 提案法: 変調スペクトルを補償するポストフィルタ – 生成パラメータ系列に対して、事前学習したフィルタを適用 HMM音声合成およびGVと比較して、合成音声の音質を改善 2/15
3.
HMM音声合成の枠組み [Zen et al.,
2009.] 自然音声のパラメータ系列 freq Time HMM学習 HMM パラメータ 生成 freq Time 合成音声のパラメータ系列 ある次元のパラメータ系列を見てみると・・・? 3/15
4.
4th mel-cepstral coefficient 自然/合成音声のパラメータ系列 Natural
speech HMM [Zen et al., 2009.] HMM+GV [Toda et al., 2007.] Time 自然/合成音声のパラメータ系列の違いとは? 4/15
5.
変調スペクトル(MS: Modulation Spectrum) 離散フーリエ変換
& 対数振幅の計算 変調スペクトル (MS) 変調スペクトルを、パラメータ系列の対数振幅スペクトルと定義 – 系列の周波数変動を表現するパラメータ – 先行研究における有効性 • 音声知覚におけるスペクトルキュー [Rob et al., 1993.] • HMMによる音声認識技術の精度向上 [Sriram et al., 2009.] – 本研究では、系列毎に変調スペクトルを計算 5/15
6.
Modulation spectrum (MS) 自然/合成音声のパラメータ系列のMS “Natural
speech”のMS “HMM”のMS “HMM+GV”のMS Modulation frequency 変調スペクトルの直接補償により、音質改善が期待 6/15
7.
提案法 7
8.
提案法の処理手順 学習部 学習 MS 自然音声 確率密度関数 確率密度 関数を推定 MSを 計算 生成 生成部 MS MSを 計算 生成 ポスト フィルタ 位相を 計算 フィルタ後のMS 位相 8/15
9.
MS of d-th
parameter sequence Sd(m) 学習部: MSの確率密度関数を推定 “Natural speech”のMSの 確率密度関数 N sd m d( Nm) , d( Nm) , , “HMM”のMSの 確率密度関数 ( ( N sd m dGm) , dGm) , , Modulation frequency m 自然/合成音声のパラメータ系列のMSを正規分布でモデル化 9/15
10.
MS of d-th
parameter sequence Sd(m) 生成部: 生成パラメータのMSを線形変換 フィルタ後のMS ( ( N sd m d Nm) , d Nm) , , 変換 “HMM”のMS ( ( N sd m dGm) , dGm) , , Modulation frequency m ( d Nm) (G ) ( N) , s 'd m 1 k sd m k s m d ,m d ,m ( dGm) d , フィルタ後のMS フィルタ強度係数 “HMM”のMS 10/15
11.
4th mel-cepstral coefficient 自然音声、従来法/提案法のパラメータ系列 HMM+MS:”HMM”に フィルタリング Natural
speech HMM [Zen et al., 2009.] HMM+GV [Toda et al., 2007.] Time 11/15
12.
実験条件 評価: – 適切なフィルタ強度係数の決定
(客観評価) – 音質改善効果の確認 (主観評価) 手法: – – – – “HMM”: HMM音声合成 [Zen et al., 2009.] “HMM+MS”: “HMM”に提案法を適用 “HMM+GV”: GVを考慮 [Toda et al., 2007.] “HMM+GV+MS”: “HMM+GV”に提案法を適用 実験条件 学習データ ATR音素バランス文450文、女性 テストデータ 同53文 スペクトルパラメータ 0~24次のメルケプストラム (提案法を適用) 音源パラメータ 対数F0、5周波数帯域の非周期成分 MSのFFT長 4096 (全データの系列の長さを超える値) 12/15
13.
客観評価:適切なフィルタ強度係数 ポストフィルタ後のパラメータ系列のHMM・GV・MS尤度を計算 90 85 80 75 HMM+GV+MS 70 65 60 Log MS likelihood
(x0.001) 100 HMM+MS Log GV likelihood Log HMM likelihood 95 50 0 -50 -100 Natural speech 55 -150 -2 -4 -6 -8 -10 -12 -14 -16 0 0.25 0.5 0.75 1 0 0.250.5 0.75 1 0 0.25 0.5 0.75 1 Filter coefficient Filter coefficient Filter coefficient 主観評価に用いるフィルタ強度係数を0.85に決定 13/15
14.
Preference score for
speech quality 主観評価:音質改善効果 7人に対するプリファレンステストを実施 1 0.8 0.6 0.4 0.2 0 HMM HMM+MS HMM+GV HMM+GV+MS 提案法による音質改善を確認 14/15
15.
まとめ 目的 – HMM音声合成による合成音声の音質改善
変調スペクトル(MS)を考慮した提案法 – 合成音声のMSは、自然音声のMSと比較して大きく劣化 – MSを補償するポストフィルタを提案 評価結果 – 従来法と比較して音質改善を確認 今後の予定 – HMM尤度・GV尤度・MS尤度を考慮したパラメータ生成法 15/15
16.
HMM HMM+MS HMM+GV HMM+GV+MS 16/15
Jetzt herunterladen