Suche senden
Hochladen
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
•
5 gefällt mir
•
2,048 views
Shinnosuke Takamichi
Folgen
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
Weniger lesen
Mehr lesen
Technologie
Melden
Teilen
Melden
Teilen
1 von 53
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Empfohlen
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
Empfohlen
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Yuma Koizumi
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
NU_I_TODALAB
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
Daichi Kitamura
音響システム特論 第11回 実環境における音響信号処理と機械学習
音響システム特論 第11回 実環境における音響信号処理と機械学習
Yuma Koizumi
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用
Yuma Koizumi
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―
Akinori Ito
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
統計的ボイチェン研究事情
統計的ボイチェン研究事情
Shinnosuke Takamichi
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
NU_I_TODALAB
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
ILRMA 20170227 danwakai
ILRMA 20170227 danwakai
SaruwatariLabUTokyo
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
Yui Sudo
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
Shinnosuke Takamichi
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
Kosuke Sugai
Weitere ähnliche Inhalte
Was ist angesagt?
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Yuma Koizumi
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
NU_I_TODALAB
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
Daichi Kitamura
音響システム特論 第11回 実環境における音響信号処理と機械学習
音響システム特論 第11回 実環境における音響信号処理と機械学習
Yuma Koizumi
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用
Yuma Koizumi
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―
Akinori Ito
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
統計的ボイチェン研究事情
統計的ボイチェン研究事情
Shinnosuke Takamichi
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
NU_I_TODALAB
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
ILRMA 20170227 danwakai
ILRMA 20170227 danwakai
SaruwatariLabUTokyo
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
Yui Sudo
Was ist angesagt?
(20)
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
音響システム特論 第11回 実環境における音響信号処理と機械学習
音響システム特論 第11回 実環境における音響信号処理と機械学習
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―
深層学習を利用した音声強調
深層学習を利用した音声強調
統計的ボイチェン研究事情
統計的ボイチェン研究事情
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
音情報処理における特徴表現
音情報処理における特徴表現
ILRMA 20170227 danwakai
ILRMA 20170227 danwakai
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
Ähnlich wie テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
Shinnosuke Takamichi
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
Kosuke Sugai
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
GREE VR Studio Lab
音声認識の仕組みを知ろう
音声認識の仕組みを知ろう
kthrlab
20180602 kawamura presentation_final
20180602 kawamura presentation_final
Yoshitake Misaki
Jacet2014ykondo_final
Jacet2014ykondo_final
早稲田大学
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
Yuta Matsunaga
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
Kosuke Sugai
2019LET九州沖縄講演資料
2019LET九州沖縄講演資料
Kosuke Sugai
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
NU_I_TODALAB
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
Shinnosuke Takamichi
「言語哲学と会話分析の対話」(2013年3月2日、明治学院大学にて)のためのポジションペーパーのようなもの
「言語哲学と会話分析の対話」(2013年3月2日、明治学院大学にて)のためのポジションペーパーのようなもの
Syun Tutiya
日本語モーラの心理的実在再考 母音の単独提示による知覚実験
日本語モーラの心理的実在再考 母音の単独提示による知覚実験
Kosuke Sugai
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察
長岡技術科学大学 自然言語処理研究室
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
Toshihiko Yamasaki
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Shinnosuke Takamichi
有声阻害重子音の音声実現における地域差に関する予備的分析
有声阻害重子音の音声実現における地域差に関する予備的分析
Toshio Matsuura
日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発
Ken IshiKen
Ähnlich wie テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
(20)
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
音声認識の仕組みを知ろう
音声認識の仕組みを知ろう
20180602 kawamura presentation_final
20180602 kawamura presentation_final
Jacet2014ykondo_final
Jacet2014ykondo_final
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
2019LET九州沖縄講演資料
2019LET九州沖縄講演資料
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
「言語哲学と会話分析の対話」(2013年3月2日、明治学院大学にて)のためのポジションペーパーのようなもの
「言語哲学と会話分析の対話」(2013年3月2日、明治学院大学にて)のためのポジションペーパーのようなもの
日本語モーラの心理的実在再考 母音の単独提示による知覚実験
日本語モーラの心理的実在再考 母音の単独提示による知覚実験
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
有声阻害重子音の音声実現における地域差に関する予備的分析
有声阻害重子音の音声実現における地域差に関する予備的分析
日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発
Mehr von Shinnosuke Takamichi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
Shinnosuke Takamichi
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
Shinnosuke Takamichi
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
Shinnosuke Takamichi
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
Shinnosuke Takamichi
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
Shinnosuke Takamichi
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
Shinnosuke Takamichi
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
Shinnosuke Takamichi
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
Shinnosuke Takamichi
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
Shinnosuke Takamichi
外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正
Shinnosuke Takamichi
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元
Shinnosuke Takamichi
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
Shinnosuke Takamichi
Mehr von Shinnosuke Takamichi
(18)
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
1.
06/23/2019©Shinnosuke Takamichi, The University
of Tokyo テキスト音声合成技術と多様性への挑戦 高道 慎之介 (東京大学 大学院情報理工学系研究科) 名古屋大学 知能システム特論
2.
/53 自己紹介 名前 – 高道
慎之介 (たかみち しんのすけ) 経歴 – 2009年 熊本電波高専 電子工学科 卒業 … 半導体など – 2011年 長岡技科大 工学部 卒業 … 立体音響など – 2016年 奈良先端大 博士課程 修了 … 音声合成など – 2016年~ 東京大学 助教 (2018年まで特任助教) 専門 – 統計的音声合成・変換など 2
3.
/53 私の研究グループの目標 3 音声変換 音声合成 全ての人間・計算機が 身体・文化・時間を超えて 音声でコミュニケーション できる社会を目指して
4.
/53 本日の内容 4 機械学習に基づくテキスト音声合成技術 多様性の表現・医療福祉のための適用例
5.
/53 目次 音声がもたらすもの 音声生成過程
発音・アクセント規則 テキスト音声合成 多様性・福祉への応用 5
6.
音声がもたらすもの 6
7.
/53 音声とは 音波とは – 物体の振動によって空気などの弾性体に生じる疎密波
音声とは – 人間が発声器官を通じて発する音 – 知能情報学 (人間の情報処理機構を解明・制御する学問) に近い “音声”と“音響”は違うことに注意! – 音響信号とは,文字通り音の響きを含む – 物理学に近い 7
8.
/53 音声の持つ情報 8 言語情報 Linguistic info. パラ言語情報 Para-linguistic info. 非言語情報 Non-linguistic
info. 狭義の音声認識 (speech-to-text) 話者認識など (speaker recognition) 感情認識など (emotion recognition) テキスト化できる情報 話し手が意図的に付与する, テキスト化できない情報 (例:感情) 話し手の意図とは無関係に付与される, テキスト化できない情報(例:話者性)
9.
/53 音声によるコミュニケーション 9 意図 音声の生成 言葉の生成 感情などの生成 意図 音声の聴取 言葉の認識 感情などの認識 空気中を伝播
10.
/53 コミュニケーションにおける障害・制約 10 音声言語の生成過程の制約 音声言語の認知過程の制約 この後のスライドでは生成側に焦点をあて, 「テキスト音声合成で障害をどう乗り越えるのか,現在の身体に 制約されない音声表現をどう可能にするか」を解説します. 意図 音声の生成 言葉の生成 感情などの生成 意図 音声の聴取 言葉の認識 感情などの認識 空気中を伝播 雑音や 通信経路の 制約
11.
音声生成過程 11
12.
/53 観測できる音声 畳み込むと… Time 音声の生成過程 12 声帯を開閉させて 空気を振動させる! 音高の生成 音色の付与 口や舌を動かして 音色をつける!
13.
/53 音声のスペクトル構造 13 Frequency Power Frequency 基本周波数 (F0) 微細構造 Power Frequency Power 包絡
14.
/53 音源生成と,音響管としての声道 14 声帯側 口唇側 声道 (音響管の連接) 有声音 (1/F0間隔のインパルス列) 無声音 (白色雑音) 音響管の形を変えて,声色を制御音源信号で,音高を制御 Vocal
tract Vocal chord Lip
15.
/53 スペクトル構造の例 15Frequency Power /a/ (lower F0)
/i/ (lower F0) /a/ (higher F0) 包絡は変わらない 微細構造は変わる 包絡は変わる 微細構造は変わらない
16.
/53 さっそくやってみよう 16 名城大 坂野先生のリアルタイム音声分析合成ツール Herium http://www-ie.meijo-u.ac.jp/~banno/software.html
17.
/53 スペクトログラム 短時間の波形に対するフーリエ変換 – 利点:比較的定常な部分の静的特徴を見られる –
欠点:音声が定常とみなせるのは数十msec程度なので 音声波形全体がどう変化しているかを見られない スペクトログラム (spectrogram) – 離散フーリエ変換による分析を時間軸方向に連続して実行し, – 時間ー周波数領域における2次元表示 17 Time
18.
/53 スペクトログラムの例 (濃いほどパワー 大
) 18Time Frequency 声道の共振 (フォルマント)
19.
/53 ボコーダ:音声を分析・合成する技術 19 http://www.kki.yamanashi.ac.jp/~mmorise/world/introductions.html より図を引用 音源信号の 雑音成分
20.
/53 さっそくやってみよう! 20 Google Colab を用いた音声分析・加工・再合成 https://colab.research.google.com/drive/1zEZeV- d6yHKlUhH3wovnlF0tz3gq7UJH 自分で動かしたいときは 1.
自分のドライブにコピー (“ファイル”のタブから) 2. 全てを実行 (“ランタイム”のタブから)
21.
発音・アクセント規則 21
22.
/53 テキストと音声を結びつけるもの テキストを読み上げたい! どうやって読んだらいいの? –
テキストと音声を結びつける構成要素がいくつかある – ①発音・音節 (pronunciation & syllable) – ②アクセント・ストレス (accent & stress) – ③リズム・等時性 (rhythm & isochrony) 22
23.
/53 ①発音・音節 発音 (pronunciation) –
発声の最小単位である音素 (phoneme) の違い 音節 (syllable) – 音節 … 言語依存の発声単位 (日本語ならほぼひらがな一つに対応) • 開音節 (open syl.) … 母音で終わる音節. 日本語の/か(k a)/など • 閉音節 (closed syl.) … 子音で終わる音節. 英語の/it (i t)/など – 子音連結 (consonant cluster) … 同一音節中で連続する子音 • 日本語 (jp) … ほぼCV (C: consonant, 子音、V: vowel, 母音) • 英語 (en) … CCCV、CCV、VCC、VCCCなどが頻出 – straight = stra + ight 23
24.
/53 ②アクセント・ストレス 音声のアクセント・ストレス – 言語に依存してスペクトルとF0に現れる
例: 日本語 (アクセント) 例: 中国語 (アクセント: 四声) 例: 英語 (ストレス) 24 Low F0 High F0 I went to the library to study for the exam. Stress わ た し は と しょ か ん へ い き ま し た。 我 去 图 书 馆 F0 changes
25.
/53 ③リズム・等時性 音声の等時性 (isochrony) –
言語に依存した音声的単位が、時間的に等間隔に現れる 例1: 日本語 (モーラ等時性) 例2: 中国語 (シラブル等時性) 例3: 英語 (ストレス等時性) 25 わ た し は と しょ か ん へ い き ま し た。 I went to the library to study for the exam. 各点は一定時間 周期で現れる 我 去 图 书 馆
26.
/53 アクセントは誰が決めている?:アクセント辞典 26 2016年に改定! (18年ぶり6回目.初版は1943年)
27.
/53 前回から何が変わった? ” ついに「ク\マ」が出た!” –
”クマが出た” のアクセントは? – 外来語は平板化 – 複合語 (歩み+寄るなど) は平板から起伏化 – などなど 27 [太田 他, 2016.]
28.
テキスト音声合成 28
29.
/53 音声合成:音声を人工的に作り出す技術 狭義の音声合成 – テキスト音声合成
(Text-To-Speech: TTS) 広義の音声合成 (**-to-speech) – テキスト音声合成 – 音声変換 (Voice Conversion: VC) – 概念音声合成 (Concept-To-Speech: CTS) • 概念 → 言語生成 → 音声合成 – 調音・音響間マッピング • 調音機構特性と音声の変換 – マルチモーダル音声合成 • 動画像などを含む音声合成 29 Text TTS
30.
/53 テキストから音声を予測する 30 Text テキスト 解析 音響 モデリング 音声波形 生成 コンテ キスト 音声 特徴量 音素・アクセント などを推定 ボコーダ(など)で 波形を生成 音響モデルで 特徴量を予測 DNN (deep neural
network) を用いた 音響モデリング → DNN音声合成 [Zen13]
31.
/53 事前準備:時系列の対応付け 通常,テキスト特徴量系列と音声特徴量系列の長さは異なる – (音声認識などによる)
アライメントを実施して揃える 31 あ ら ゆ る ・・・ Accent phrase a r a y u r uPhoneme Low High Spectrum, F0 Text … Speech あらゆる
32.
/53 学習:DNNを用いた音響モデリング 32 コンテキスト 音声特徴量 t=1 t=2 t=T 当該音素 Phoneme アクセント Accent モーラ位置 Mora position 時間位置 Temporal
position などなど a i u … 1 2 3 … 0 1 0 1 0 スペクトル (声色) spectrum F0 (音高) 有声・無声 Voiced/unvoiced label Text DNN DNNは自然音声特徴量との二乗誤差を最小化するように学習
33.
/53 音声合成の手順 33 あ ら ゆ
る ・・・ Accent phrase a r a y u r uPhoneme Low High Spectrum, F0 Text Speech あらゆる … …speech params. prediction Duration prediction + duration info. Duration model (継続長モデル)を 別に用意して,継続長を予測
34.
多様性・福祉への応用 音声合成はどんな多様性を生みだせるか? 34
35.
/53 ALS(筋萎縮性側索硬化症)への挑戦 35 筋肉の萎縮による発話の困難さを音声合成で緩和 https://www.youtube.com/watch?v=Dcg0rKG5WlU
36.
/53 平均声とモデル適応の利用 音声合成システムを作るための音声データ量 – HMM音声合成
[Tokuda13] … 30分~ – DNN音声合成 [Zen13] … 数時間~ – End-to-end音声合成 … 数十時間~ → ALS患者のようなケースでは,体力的な負担も大きい… (経験的に,読み上げ音声収録に係る時間はデータ量の10倍以上) 多数話者音声のモデル化とモデル適応 – 色んな人の声から“平均的な声”のモデルを作り,それを部分的に 適応することで,目標話者の少量のデータだけで音声合成を可能に 36 多数話者 データ 平均声 モデル 目標話者 モデル パラメータを適応
37.
/53 人類の共通資源への挑戦 研究者発の音声コーパスはいくつかあった – CMU
arctic [Kominek03] … 7 hrs, 7 spkrs – CSTR VCTK [Veaux12] … 44 hrs, 109 spkrs – Blizzard 2013 [King13] … 300 hrs, 1 spkr – JSUT [Sonobe17] … 10 hrs, 1 spkr (Japanese) 2015年頃からボランティア収録・パブリックドメインが増加 – Spoken Wikipedia Corpora [Baumann16] – Librispeech [Panayotov15] / LibriTTS [Zen19] – Mozilla Common Voice (後述) – CMU Wilderness Multilingual Speech Dataset [Black19] 37
38.
/53 Mozilla Common Voice: パブリックデータとしての音声 38 声のボランティアを募って音声データを集める試み https://voice.mozilla.org/en
39.
/53 人間の話者知覚のモデル化への挑戦 やみくもに音声を集めれば,あらゆる話者の声を再現できるか? – 答えはNo. –
音響モデルを適応させる場合に,目標話者に似ていない話者の モデルを元にすると,音質と話者再現度が低くなる. – 「どれくらい声が似ているか」を計算機で扱えるか? クラウドソーシングを用いた話者類似度に関するスコアリング – 4,000名超の参加者による評価 [Saito19] 39 提示話者対サンプル
40.
/5340 類似度スコアに基づく話者グラフを用いた 話者間類似度の可視化 話者の配置は類似度スコアを用いた多次元尺度構成法で決定 F051 F146B F048 特定の話者に 類似した話者 多数の話者に 類似した話者F093 F127 [Saito19]
41.
/53 DNNを用いた話者埋め込みへの応用 41 Spk. 1 𝒅1 Spk. 𝑁s 𝒅 𝑁𝐬 ⋯ 𝐃⊤ 𝐃 ⋯ Gram
matrix 𝐊 𝐃 Calc. kernel 𝑘 ⋅ 𝐿SIM mat ⋅ 𝑁s 𝑁s 1 1 ⋯ ⋯ 𝑁s1 ⋯ 1 𝑁s 𝑘 𝒅1, 𝒅 𝑵s 𝑠1,𝑁s𝐒 Sim. score matrix 𝐿SIM (mat) 𝐃, 𝐒 = 𝐊 𝐃 − 𝐒 𝐹 2 音声特徴量 (客観値) から話者類似度 (主観値) へのマッピング – DNNを用いた行列ノルム最小化で実現 – 話者性のユニークさも表現可能
42.
/53 外国語スピーキング学習への挑戦 外国語学習の目的 – 対象の外国語
(例:英語) を用いた円滑な音声コミュニケーション スピーキング学習では何を目標にすべきか? – 母語話者 (例:英語話者) を目指すべき? → No. – 外国語話者はある程度の発音逸脱を許容しているため,その許容 範囲に収まる発音であれば,訛った外国語でもOKなのでは? ノンネイティブ音声合成 – 学習者の訛りを生かしつつ,外国語話者に伝わる音声を生成 42
43.
/53 日本人英語音声合成 43 従来法で生成 提案法で生成 学習に使用した音声 (ERJデータベースに含まれる 男子大学生のうち,評定スコアが最低) “I can
see that knife now.” [Oshima16]
44.
/53 日本人英語の音声合成のための韻律補正 韻律の違い – 日本語:モーラ等時性・ピッチアクセント –
英語:ストレス等時性・ストレスアクセント 韻律補正法 – 英語母語話者の韻律を利用 – 同じ枠組みは別言語でも可能 44 [Oshima16] 英語母語話者の 音響モデル 英語母語話者の 英語音声 日本語母語話者の 英語音声 韻律を補正した 日本語母語話者の 音響モデル スペクトル 音源 パワー 継続長 スペクトル 音源 パワー 継続長 モデル 適応 パワーと継続長を 補正すればよい!
45.
/53 中国人日本語の音声合成のための韻律補正 45 Conventional Ours Chinese-accented Japanese uttered by
a Chinese student “私のテストの成績の悪さに, 母がカンカンに怒っています” Text Text-to-speech Voice building Make the voice fluent. [Sekizawa19]
46.
/53 一期一会音声合成: 人間らしい発話間変動への挑戦 46 「正しく喋る」から「正しく間違えて喋る」音声合成へ Human Noise Current TTS Noise Our approach [Takamichi17]
47.
/53 Neural double-tracking 47 [Tamaru19] 深層生成モデルを用いて「人間の音声はこう間違う」を学習 NDT Random pitch
modulation based on deep generative models (e.g., GAN, GMMN)
48.
/53 深層生成モデル: Generative Adversarial Network
(GAN) Generative adversarial network – 分布間の近似 Jensen-Shannon divergence を最小化 – 生成モデルと,学習/生成データを識別する識別モデルを敵対 48 𝒚 1: natural 0: synthesized ⋯ ⋯ ⋯ ⋯ Input Discriminator Generator Natural [Goodfellow14]
49.
/53 別の生成モデル: Generative moment-matching network
Generative moment-matching network – 分布のモーメント (平均,分散,…) 間の二乗距離を最小化 – 実装上は,グラム行列のノルムの差を最小化 49 𝒚 Natural speech ⋯ ⋯ ⋯ ⋯ Generator Input [Takamichi18]
50.
/53 多方言音声合成:方言への挑戦 50 Dialect text Multi-dialect speech synthesis Dialect speech Miyazaki-ben コンテキストの教師なし獲得により 地域性・話者性を分離した音声合成へ [Takamichi18][Akiyama18]
51.
/53 方言情報を用いた韻律予測 51 文字列 出ると きに Bi-directional
LSTM Bi-directional LSTM Embedding Embedding “出ると”の韻律 “きに”の韻律ターゲット 方言情報ベクトル DNNを方言情報で条件付け – One-hot ベクトル (離散表現):各方言がベクトルの各要素に対応 – 地理情報 (連続表現):各方言の中心地域の地理緯度・経度 • “Geographic embedding model” [Takamichi18][Akiyama18]
52.
まとめ 52
53.
/53 まとめ 音声がもたらすもの – 音声のもつ情報と音声コミュニケーション
音声生成過程 – スペクトル包絡 (音色)・基本周波数 (音高) 発音・アクセント規則 – 発音・音節・アクセント・ストレス・等時性 テキスト音声合成 – DNN音声合成 多様性・福祉への応用 – ALS・共通音声資源・可視化・発音教育・間違いへの挑戦 53
Jetzt herunterladen