SlideShare ist ein Scribd-Unternehmen logo
1 von 53
Downloaden Sie, um offline zu lesen
06/23/2019©Shinnosuke Takamichi,
The University of Tokyo
テキスト音声合成技術と多様性への挑戦
高道 慎之介
(東京大学 大学院情報理工学系研究科)
名古屋大学 知能システム特論
/53
自己紹介
 名前
– 高道 慎之介 (たかみち しんのすけ)
 経歴
– 2009年 熊本電波高専 電子工学科 卒業 … 半導体など
– 2011年 長岡技科大 工学部 卒業 … 立体音響など
– 2016年 奈良先端大 博士課程 修了 … 音声合成など
– 2016年~ 東京大学 助教 (2018年まで特任助教)
 専門
– 統計的音声合成・変換など
2
/53
私の研究グループの目標
3
音声変換
音声合成
全ての人間・計算機が
身体・文化・時間を超えて
音声でコミュニケーション
できる社会を目指して
/53
本日の内容
4
機械学習に基づくテキスト音声合成技術
多様性の表現・医療福祉のための適用例
/53
目次
 音声がもたらすもの
 音声生成過程
 発音・アクセント規則
 テキスト音声合成
 多様性・福祉への応用
5
音声がもたらすもの
6
/53
音声とは
 音波とは
– 物体の振動によって空気などの弾性体に生じる疎密波
 音声とは
– 人間が発声器官を通じて発する音
– 知能情報学 (人間の情報処理機構を解明・制御する学問) に近い
 “音声”と“音響”は違うことに注意!
– 音響信号とは,文字通り音の響きを含む
– 物理学に近い
7
/53
音声の持つ情報
8
言語情報
Linguistic info.
パラ言語情報
Para-linguistic info.
非言語情報
Non-linguistic info.
狭義の音声認識
(speech-to-text)
話者認識など
(speaker recognition)
感情認識など
(emotion recognition)
テキスト化できる情報
話し手が意図的に付与する,
テキスト化できない情報 (例:感情)
話し手の意図とは無関係に付与される,
テキスト化できない情報(例:話者性)
/53
音声によるコミュニケーション
9
意図
音声の生成
言葉の生成
感情などの生成
意図
音声の聴取
言葉の認識
感情などの認識
空気中を伝播
/53
コミュニケーションにおける障害・制約
10
音声言語の生成過程の制約 音声言語の認知過程の制約
この後のスライドでは生成側に焦点をあて,
「テキスト音声合成で障害をどう乗り越えるのか,現在の身体に
制約されない音声表現をどう可能にするか」を解説します.
意図
音声の生成
言葉の生成
感情などの生成
意図
音声の聴取
言葉の認識
感情などの認識
空気中を伝播
雑音や
通信経路の
制約
音声生成過程
11
/53
観測できる音声
畳み込むと…
Time
音声の生成過程
12
声帯を開閉させて
空気を振動させる!
音高の生成
音色の付与
口や舌を動かして
音色をつける!
/53
音声のスペクトル構造
13
Frequency
Power
Frequency
基本周波数 (F0)
微細構造
Power
Frequency
Power
包絡
/53
音源生成と,音響管としての声道
14
声帯側 口唇側
声道 (音響管の連接)
有声音
(1/F0間隔のインパルス列)
無声音
(白色雑音)
音響管の形を変えて,声色を制御音源信号で,音高を制御
Vocal tract
Vocal chord Lip
/53
スペクトル構造の例
15Frequency
Power
/a/ (lower F0) /i/ (lower F0)
/a/ (higher F0)
包絡は変わらない
微細構造は変わる
包絡は変わる
微細構造は変わらない
/53
さっそくやってみよう
16
名城大 坂野先生のリアルタイム音声分析合成ツール Herium
http://www-ie.meijo-u.ac.jp/~banno/software.html
/53
スペクトログラム
 短時間の波形に対するフーリエ変換
– 利点:比較的定常な部分の静的特徴を見られる
– 欠点:音声が定常とみなせるのは数十msec程度なので
音声波形全体がどう変化しているかを見られない
 スペクトログラム (spectrogram)
– 離散フーリエ変換による分析を時間軸方向に連続して実行し,
– 時間ー周波数領域における2次元表示
17
Time
/53
スペクトログラムの例 (濃いほどパワー 大 )
18Time
Frequency
声道の共振 (フォルマント)
/53
ボコーダ:音声を分析・合成する技術
19
http://www.kki.yamanashi.ac.jp/~mmorise/world/introductions.html より図を引用
音源信号の
雑音成分
/53
さっそくやってみよう!
20
Google Colab を用いた音声分析・加工・再合成
https://colab.research.google.com/drive/1zEZeV-
d6yHKlUhH3wovnlF0tz3gq7UJH
自分で動かしたいときは
1. 自分のドライブにコピー (“ファイル”のタブから)
2. 全てを実行 (“ランタイム”のタブから)
発音・アクセント規則
21
/53
テキストと音声を結びつけるもの
 テキストを読み上げたい!
 どうやって読んだらいいの?
– テキストと音声を結びつける構成要素がいくつかある
– ①発音・音節 (pronunciation & syllable)
– ②アクセント・ストレス (accent & stress)
– ③リズム・等時性 (rhythm & isochrony)
22
/53
①発音・音節
 発音 (pronunciation)
– 発声の最小単位である音素 (phoneme) の違い
 音節 (syllable)
– 音節 … 言語依存の発声単位 (日本語ならほぼひらがな一つに対応)
• 開音節 (open syl.) … 母音で終わる音節. 日本語の/か(k a)/など
• 閉音節 (closed syl.) … 子音で終わる音節. 英語の/it (i t)/など
– 子音連結 (consonant cluster) … 同一音節中で連続する子音
• 日本語 (jp) … ほぼCV (C: consonant, 子音、V: vowel, 母音)
• 英語 (en) … CCCV、CCV、VCC、VCCCなどが頻出
– straight = stra + ight
23
/53
②アクセント・ストレス
 音声のアクセント・ストレス
– 言語に依存してスペクトルとF0に現れる
 例: 日本語 (アクセント)
 例: 中国語 (アクセント: 四声)
 例: 英語 (ストレス)
24
Low F0
High F0
I went to the library to study for the exam.
Stress
わ た し は と しょ か ん へ い き ま し た。
我 去 图 书 馆
F0 changes
/53
③リズム・等時性
 音声の等時性 (isochrony)
– 言語に依存した音声的単位が、時間的に等間隔に現れる
 例1: 日本語 (モーラ等時性)
 例2: 中国語 (シラブル等時性)
 例3: 英語 (ストレス等時性)
25
わ た し は と しょ か ん へ い き ま し た。
I went to the library to study for the exam.
各点は一定時間
周期で現れる
我 去 图 书 馆
/53
アクセントは誰が決めている?:アクセント辞典
26
2016年に改定! (18年ぶり6回目.初版は1943年)
/53
前回から何が変わった?
 ” ついに「ク\マ」が出た!”
– ”クマが出た” のアクセントは?
– 外来語は平板化
– 複合語 (歩み+寄るなど) は平板から起伏化
– などなど
27
[太田 他, 2016.]
テキスト音声合成
28
/53
音声合成:音声を人工的に作り出す技術
 狭義の音声合成
– テキスト音声合成 (Text-To-Speech: TTS)
 広義の音声合成 (**-to-speech)
– テキスト音声合成
– 音声変換 (Voice Conversion: VC)
– 概念音声合成 (Concept-To-Speech: CTS)
• 概念 → 言語生成 → 音声合成
– 調音・音響間マッピング
• 調音機構特性と音声の変換
– マルチモーダル音声合成
• 動画像などを含む音声合成
29
Text TTS
/53
テキストから音声を予測する
30
Text
テキスト
解析
音響
モデリング
音声波形
生成
コンテ
キスト
音声
特徴量
音素・アクセント
などを推定
ボコーダ(など)で
波形を生成
音響モデルで
特徴量を予測
DNN (deep neural network) を用いた
音響モデリング → DNN音声合成 [Zen13]
/53
事前準備:時系列の対応付け
 通常,テキスト特徴量系列と音声特徴量系列の長さは異なる
– (音声認識などによる) アライメントを実施して揃える
31
あ ら ゆ る ・・・
Accent phrase
a r a y u r uPhoneme
Low
High
Spectrum, F0
Text
…
Speech
あらゆる
/53
学習:DNNを用いた音響モデリング
32
コンテキスト 音声特徴量
t=1
t=2
t=T
当該音素
Phoneme
アクセント
Accent
モーラ位置
Mora position
時間位置
Temporal position
などなど
a
i
u
…
1
2
3
…
0
1
0
1
0
スペクトル (声色)
spectrum
F0 (音高)
有声・無声
Voiced/unvoiced label
Text
DNN
DNNは自然音声特徴量との二乗誤差を最小化するように学習
/53
音声合成の手順
33
あ ら ゆ る ・・・
Accent phrase
a r a y u r uPhoneme
Low
High
Spectrum, F0
Text
Speech
あらゆる
… …speech params.
prediction
Duration prediction
+ duration info.
Duration model (継続長モデル)を
別に用意して,継続長を予測
多様性・福祉への応用
音声合成はどんな多様性を生みだせるか?
34
/53
ALS(筋萎縮性側索硬化症)への挑戦
35
筋肉の萎縮による発話の困難さを音声合成で緩和
https://www.youtube.com/watch?v=Dcg0rKG5WlU
/53
平均声とモデル適応の利用
 音声合成システムを作るための音声データ量
– HMM音声合成 [Tokuda13] … 30分~
– DNN音声合成 [Zen13] … 数時間~
– End-to-end音声合成 … 数十時間~
→ ALS患者のようなケースでは,体力的な負担も大きい…
(経験的に,読み上げ音声収録に係る時間はデータ量の10倍以上)
 多数話者音声のモデル化とモデル適応
– 色んな人の声から“平均的な声”のモデルを作り,それを部分的に
適応することで,目標話者の少量のデータだけで音声合成を可能に
36
多数話者
データ
平均声
モデル 目標話者
モデル
パラメータを適応
/53
人類の共通資源への挑戦
 研究者発の音声コーパスはいくつかあった
– CMU arctic [Kominek03] … 7 hrs, 7 spkrs
– CSTR VCTK [Veaux12] … 44 hrs, 109 spkrs
– Blizzard 2013 [King13] … 300 hrs, 1 spkr
– JSUT [Sonobe17] … 10 hrs, 1 spkr (Japanese)
 2015年頃からボランティア収録・パブリックドメインが増加
– Spoken Wikipedia Corpora [Baumann16]
– Librispeech [Panayotov15] / LibriTTS [Zen19]
– Mozilla Common Voice (後述)
– CMU Wilderness Multilingual Speech Dataset [Black19]
37
/53
Mozilla Common Voice:
パブリックデータとしての音声
38
声のボランティアを募って音声データを集める試み
https://voice.mozilla.org/en
/53
人間の話者知覚のモデル化への挑戦
 やみくもに音声を集めれば,あらゆる話者の声を再現できるか?
– 答えはNo.
– 音響モデルを適応させる場合に,目標話者に似ていない話者の
モデルを元にすると,音質と話者再現度が低くなる.
– 「どれくらい声が似ているか」を計算機で扱えるか?
 クラウドソーシングを用いた話者類似度に関するスコアリング
– 4,000名超の参加者による評価 [Saito19]
39
提示話者対サンプル
/5340
類似度スコアに基づく話者グラフを用いた
話者間類似度の可視化
話者の配置は類似度スコアを用いた多次元尺度構成法で決定
F051
F146B
F048
特定の話者に
類似した話者
多数の話者に
類似した話者F093
F127
[Saito19]
/53
DNNを用いた話者埋め込みへの応用
41
Spk.
1
𝒅1
Spk.
𝑁s
𝒅 𝑁𝐬
⋯
𝐃⊤ 𝐃
⋯
Gram matrix
𝐊 𝐃
Calc.
kernel
𝑘 ⋅
𝐿SIM
mat
⋅
𝑁s
𝑁s
1
1
⋯
⋯
𝑁s1
⋯
1
𝑁s
𝑘 𝒅1, 𝒅 𝑵s
𝑠1,𝑁s𝐒
Sim. score
matrix
𝐿SIM
(mat)
𝐃, 𝐒 = 𝐊 𝐃 − 𝐒 𝐹
2
 音声特徴量 (客観値) から話者類似度 (主観値) へのマッピング
– DNNを用いた行列ノルム最小化で実現
– 話者性のユニークさも表現可能
/53
外国語スピーキング学習への挑戦
 外国語学習の目的
– 対象の外国語 (例:英語) を用いた円滑な音声コミュニケーション
 スピーキング学習では何を目標にすべきか?
– 母語話者 (例:英語話者) を目指すべき? → No.
– 外国語話者はある程度の発音逸脱を許容しているため,その許容
範囲に収まる発音であれば,訛った外国語でもOKなのでは?
 ノンネイティブ音声合成
– 学習者の訛りを生かしつつ,外国語話者に伝わる音声を生成
42
/53
日本人英語音声合成
43
従来法で生成
提案法で生成
学習に使用した音声 (ERJデータベースに含まれる
男子大学生のうち,評定スコアが最低)
“I can see that knife now.”
[Oshima16]
/53
日本人英語の音声合成のための韻律補正
 韻律の違い
– 日本語:モーラ等時性・ピッチアクセント
– 英語:ストレス等時性・ストレスアクセント
 韻律補正法
– 英語母語話者の韻律を利用
– 同じ枠組みは別言語でも可能
44
[Oshima16]
英語母語話者の
音響モデル
英語母語話者の
英語音声
日本語母語話者の
英語音声
韻律を補正した
日本語母語話者の
音響モデル
スペクトル
音源
パワー
継続長
スペクトル
音源
パワー
継続長
モデル
適応
パワーと継続長を
補正すればよい!
/53
中国人日本語の音声合成のための韻律補正
45
Conventional
Ours
Chinese-accented Japanese
uttered by a Chinese student
“私のテストの成績の悪さに,
母がカンカンに怒っています”
Text Text-to-speech
Voice building
Make the voice fluent.
[Sekizawa19]
/53
一期一会音声合成:
人間らしい発話間変動への挑戦
46
「正しく喋る」から「正しく間違えて喋る」音声合成へ
Human
Noise
Current TTS
Noise
Our approach
[Takamichi17]
/53
Neural double-tracking
47
[Tamaru19]
深層生成モデルを用いて「人間の音声はこう間違う」を学習
NDT
Random pitch modulation
based on deep generative models
(e.g., GAN, GMMN)
/53
深層生成モデル:
Generative Adversarial Network (GAN)
 Generative adversarial network
– 分布間の近似 Jensen-Shannon divergence を最小化
– 生成モデルと,学習/生成データを識別する識別モデルを敵対
48
𝒚
1: natural
0: synthesized
⋯
⋯
⋯
⋯
Input
Discriminator
Generator
Natural
[Goodfellow14]
/53
別の生成モデル:
Generative moment-matching network
 Generative moment-matching network
– 分布のモーメント (平均,分散,…) 間の二乗距離を最小化
– 実装上は,グラム行列のノルムの差を最小化
49
𝒚
Natural speech
⋯
⋯
⋯
⋯
Generator
Input
[Takamichi18]
/53
多方言音声合成:方言への挑戦
50
Dialect
text
Multi-dialect
speech
synthesis
Dialect speech
Miyazaki-ben
コンテキストの教師なし獲得により
地域性・話者性を分離した音声合成へ
[Takamichi18][Akiyama18]
/53
方言情報を用いた韻律予測
51
文字列 出ると きに
Bi-directional LSTM
Bi-directional LSTM
Embedding Embedding
“出ると”の韻律 “きに”の韻律ターゲット
方言情報ベクトル
 DNNを方言情報で条件付け
– One-hot ベクトル (離散表現):各方言がベクトルの各要素に対応
– 地理情報 (連続表現):各方言の中心地域の地理緯度・経度
• “Geographic embedding model”
[Takamichi18][Akiyama18]
まとめ
52
/53
まとめ
 音声がもたらすもの
– 音声のもつ情報と音声コミュニケーション
 音声生成過程
– スペクトル包絡 (音色)・基本周波数 (音高)
 発音・アクセント規則
– 発音・音節・アクセント・ストレス・等時性
 テキスト音声合成
– DNN音声合成
 多様性・福祉への応用
– ALS・共通音声資源・可視化・発音教育・間違いへの挑戦
53

Weitere ähnliche Inhalte

Was ist angesagt?

短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術Yuma Koizumi
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversionYuki Saito
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用NU_I_TODALAB
 
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...Daichi Kitamura
 
音響システム特論 第11回 実環境における音響信号処理と機械学習
音響システム特論 第11回 実環境における音響信号処理と機械学習音響システム特論 第11回 実環境における音響信号処理と機械学習
音響システム特論 第11回 実環境における音響信号処理と機械学習Yuma Koizumi
 
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用Yuma Koizumi
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろうShinnosuke Takamichi
 
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―Akinori Ito
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調Yuma Koizumi
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情Shinnosuke Takamichi
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析Shinnosuke Takamichi
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスShinnosuke Takamichi
 
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?NU_I_TODALAB
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展Shinnosuke Takamichi
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術NU_I_TODALAB
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamformingShinnosuke Takamichi
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~Yui Sudo
 

Was ist angesagt? (20)

短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
 
音響システム特論 第11回 実環境における音響信号処理と機械学習
音響システム特論 第11回 実環境における音響信号処理と機械学習音響システム特論 第11回 実環境における音響信号処理と機械学習
音響システム特論 第11回 実環境における音響信号処理と機械学習
 
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
ILRMA 20170227 danwakai
ILRMA 20170227 danwakaiILRMA 20170227 danwakai
ILRMA 20170227 danwakai
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
 

Ähnlich wie テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)

音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言Shinnosuke Takamichi
 
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係Kosuke Sugai
 
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版GREE VR Studio Lab
 
音声認識の仕組みを知ろう
音声認識の仕組みを知ろう音声認識の仕組みを知ろう
音声認識の仕組みを知ろうkthrlab
 
20180602 kawamura presentation_final
20180602 kawamura presentation_final20180602 kawamura presentation_final
20180602 kawamura presentation_finalYoshitake Misaki
 
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)Yuta Matsunaga
 
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)Kosuke Sugai
 
2019LET九州沖縄講演資料
2019LET九州沖縄講演資料2019LET九州沖縄講演資料
2019LET九州沖縄講演資料Kosuke Sugai
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Shinnosuke Takamichi
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換NU_I_TODALAB
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成Shinnosuke Takamichi
 
「言語哲学と会話分析の対話」(2013年3月2日、明治学院大学にて)のためのポジションペーパーのようなもの
「言語哲学と会話分析の対話」(2013年3月2日、明治学院大学にて)のためのポジションペーパーのようなもの「言語哲学と会話分析の対話」(2013年3月2日、明治学院大学にて)のためのポジションペーパーのようなもの
「言語哲学と会話分析の対話」(2013年3月2日、明治学院大学にて)のためのポジションペーパーのようなものSyun Tutiya
 
日本語モーラの心理的実在再考 母音の単独提示による知覚実験
日本語モーラの心理的実在再考 母音の単独提示による知覚実験日本語モーラの心理的実在再考 母音の単独提示による知覚実験
日本語モーラの心理的実在再考 母音の単独提示による知覚実験Kosuke Sugai
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告Shinnosuke Takamichi
 
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生Toshihiko Yamasaki
 
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用Shinnosuke Takamichi
 
有声阻害重子音の音声実現における地域差に関する予備的分析
有声阻害重子音の音声実現における地域差に関する予備的分析有声阻害重子音の音声実現における地域差に関する予備的分析
有声阻害重子音の音声実現における地域差に関する予備的分析Toshio Matsuura
 
日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発Ken IshiKen
 

Ähnlich wie テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論) (20)

音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
 
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
 
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
 
音声認識の仕組みを知ろう
音声認識の仕組みを知ろう音声認識の仕組みを知ろう
音声認識の仕組みを知ろう
 
20180602 kawamura presentation_final
20180602 kawamura presentation_final20180602 kawamura presentation_final
20180602 kawamura presentation_final
 
Jacet2014ykondo_final
Jacet2014ykondo_finalJacet2014ykondo_final
Jacet2014ykondo_final
 
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
 
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
 
2019LET九州沖縄講演資料
2019LET九州沖縄講演資料2019LET九州沖縄講演資料
2019LET九州沖縄講演資料
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
 
「言語哲学と会話分析の対話」(2013年3月2日、明治学院大学にて)のためのポジションペーパーのようなもの
「言語哲学と会話分析の対話」(2013年3月2日、明治学院大学にて)のためのポジションペーパーのようなもの「言語哲学と会話分析の対話」(2013年3月2日、明治学院大学にて)のためのポジションペーパーのようなもの
「言語哲学と会話分析の対話」(2013年3月2日、明治学院大学にて)のためのポジションペーパーのようなもの
 
日本語モーラの心理的実在再考 母音の単独提示による知覚実験
日本語モーラの心理的実在再考 母音の単独提示による知覚実験日本語モーラの心理的実在再考 母音の単独提示による知覚実験
日本語モーラの心理的実在再考 母音の単独提示による知覚実験
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
 
用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察
 
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
 
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
 
有声阻害重子音の音声実現における地域差に関する予備的分析
有声阻害重子音の音声実現における地域差に関する予備的分析有声阻害重子音の音声実現における地域差に関する予備的分析
有声阻害重子音の音声実現における地域差に関する予備的分析
 
日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発
 

Mehr von Shinnosuke Takamichi

リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法Shinnosuke Takamichi
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...Shinnosuke Takamichi
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価Shinnosuke Takamichi
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスShinnosuke Takamichi
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価Shinnosuke Takamichi
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザインShinnosuke Takamichi
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech CorpusShinnosuke Takamichi
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource LanguagesShinnosuke Takamichi
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価Shinnosuke Takamichi
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定Shinnosuke Takamichi
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返ってShinnosuke Takamichi
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingShinnosuke Takamichi
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割Shinnosuke Takamichi
 
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調Shinnosuke Takamichi
 
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習Shinnosuke Takamichi
 
外国人留学生日本語の音声合成における 話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における 話者性を保持した韻律補正Shinnosuke Takamichi
 
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の  モード近似を用いた位相復元 SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の  モード近似を用いた位相復元
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元 Shinnosuke Takamichi
 
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用Shinnosuke Takamichi
 

Mehr von Shinnosuke Takamichi (18)

リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
 
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
 
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
 
外国人留学生日本語の音声合成における 話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における 話者性を保持した韻律補正
 
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の  モード近似を用いた位相復元 SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の  モード近似を用いた位相復元
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元
 
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
 

テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)