Diese Präsentation wurde erfolgreich gemeldet.
Die SlideShare-Präsentation wird heruntergeladen. ×

音声生成の基礎と音声学

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige

Hier ansehen

1 von 28 Anzeige
Anzeige

Weitere Verwandte Inhalte

Diashows für Sie (18)

Andere mochten auch (10)

Anzeige

Aktuellste (20)

Anzeige

音声生成の基礎と音声学

  1. 1. 学際情報科学論 I. 音声学と音声認識・合成 伊藤 彰則 aito@spcom.ecei.tohoku.ac.jp
  2. 2. この講義の概要 ● 音声:音と言語のインタフェース ● 音声の生成と音声学 – 声を生み出す器官 – 人間の音声の特徴と分類 – 音声の音としての特徴 ● 音声の認識 – パターン認識の枠組み – 特徴抽出 – 音響モデル・言語モデル・デコーダ ● 音声の合成 – フォルマント合成 / 波形接続合成 /HMM 合成
  3. 3. 音声の生成と音声学 ● 人間の声はどうやって作られているのか? ● 人間の声はなぜ多様なのか? ● 人間はどんな種類の声を言語に使っているの か? ● 発声器官と声の種類との関係は? ● 声の種類と音声の物理的性質との関係は? ● 音声の物理的性質と音声の知覚の関係は?
  4. 4. 音声の生成 ● 声を生成する器官 Organs for speech production ● 声帯 vocal cord ● 喉頭 larynx ● 咽頭 pharynx ● 舌 tongue ● 歯茎 teethridge ● 歯 teeth ● 口唇 lips ● 鼻腔 nasal cavity 声道 vocal tract
  5. 5. 声を生成する器官 声帯 vocal cord 気管 trachea 食道 esophagus 喉頭 larynx 咽頭 pharynx 舌 tongue 軟口蓋 soft palate 硬口蓋 hard palate 鼻腔 nasal cavity 歯茎 teeth ridge 口唇 lips
  6. 6. 声帯:声のもとを作る 前 後 声帯 食道へ 梨状窩 (梨状陥凹) 気 管 ビデオをご覧ください vocal cord piriform fossa
  7. 7. 調音:音を形作る ● 調音 articulation ● 調音位置 Place of articulatuon ● 調音様式 Manner of articulation
  8. 8. 調音:音を形作る ●調音位置 Place of articulation ●母音 vowels ●前舌 / 中舌 / 後舌 ●Tongue front - back ●子音 consonants ●喉頭 grottal ●咽頭 pharyngeal ●舌背 velar - palatal ●歯 alveolar - dental ●唇 labial
  9. 9. 調音:音を形作る ●調音様式 Method of articulation –破裂音 plosive –鼻音 nasal –摩擦音 fricative –流音 liquid –はじき音 flap/tap –ふるえ音 trill –破擦音 affricate ビデオをご覧ください
  10. 10. IPA: 音韻の表記法 ● 母音 (Wikipedia より ) ● 半母音 (semivowel) [w], [j]
  11. 11. IPA: 音韻の表記法 ● 子音 (Wikipedia より )
  12. 12. IPA :音韻の表記法 ● 変な発音 (Wikipedia より )
  13. 13. 音韻 (phone) と音素 (phoneme) ● 音韻:人間が発声する、区別できる音 ● 言語によらない ● すべての言語ですべての音韻を言語的に区別す るわけではない – 複数の音韻が区別されない(異音) – 言語として使われない音韻がある ● 音素:言語的に区別される音の最小単位 ● 音韻と必ずしも一対一に対応しない ● 例 : いろいろな「ん」の音韻(音素は一つ) – あんがい [ŋ] / あんざい [n] / あんばい [m]
  14. 14. 音素 (phoneme) と音節 (syllable) ● 音節 (syllable) :子音 (C) と母音 (V) からなる音 の塊 (cluster) ● happiness [hæ-pi-nis] 3 音節 ● unscramble [ʌn-skræm-bəl] 3 音節 ● 音節の構造 ● 0 個以上の子音 ● 母音(長母音、多重母音) ● 0 個以上の子音 ● 長い音節例: scratched [skræʧt] CCCVCC
  15. 15. 音声の生成と音声波形 ● 音声の生成は物理的にどういう過程か ● 音声波形の特徴はどこにあるのか ● 音声の特徴と発音の関係は
  16. 16. 音響管モデル ● 人間の発声機構は 管楽器に似ている 声 帯 声 道 喉 頭 唇 鼻 腔 声の高さ 発声内容 個人性
  17. 17. 音韻性と個人性 声 帯 声 道 喉 頭 唇 鼻 腔 この辺の形は 自分で制御できる
  18. 18. 音韻性と個人性 声 帯 声 道 喉 頭 唇 鼻 腔 この辺の形,全体の長さ,平均 的な太さなどは自分で制御できな い
  19. 19. 音声の波形 ● 結構複雑です /a/ /i/ /u/ /o//e/
  20. 20. 音声の波形 ● 複雑だけどおおむね周期的 基本周期 基本周期 T [s] 基本周波数 F0 [Hz] = 1/T
  21. 21. いろいろな「あ」 ● 基本周波数の違う2つの /a/ ● 音韻としては同じ:声道の形が同じ(と思われる) ● 波形はまったく異なる ● 物理量の何が同じなのか?
  22. 22. 音声のスペクトル ● 2つの「あ」のスペクトル ● 大まかな形が似ている→声道形状 ● 細かいギザギザは異なる→声帯音源波の周波数
  23. 23. 音声のスペクトルとフォルマント周 波数 ● F0: 基本周波数 ● F1,F2,..: フォルマント (formant) 周波数 基 本 周 波 数 ホ ル マ ン ト 周 波 数 F 0 F 1 F 2 F 3 F 4
  24. 24. 母音とフォルマント周波数 ●日本語 5 母音はほぼ F1-F2 周波数で説明さ れる ●調音とフォルマント の対応関係 –F1 が舌の位置 (front-back) –F2 があごの開き (open-close) 音声合成デモ
  25. 25. 音声の知覚 ● 発声された音声を人間はどう聞いているのか ● 音声信号に含まれる要素 ● 言語情報 (linguistic information) – 言語的な内容(文字に起こせる情報) ● パラ言語情報 (para-linguistic information) – 文字には起こせないが、発話の意味や雰囲気、 ニュアンス、感情などに関係する音声の変化 – 音声の高さ(ピッチ)、強さ(パワー)、母音 の引き延ばし、速さなどが関係している ● 非言語情報 (non-linguistic information) – 自分ではコントロールできない個人性(性別、 体格)
  26. 26. 母音の知覚 ● 基本的にはフォルマント周波数による ● 範疇的知覚 (categorical perception)
  27. 27. 母音の知覚 ● フォルマント周波数の値だけでなく、その動き が重要
  28. 28. 子音の知覚 ● 子音の種類ごとに異なる ● 音韻の長さ ● スペクトル概形 ● パワーの時間変化 ● 先行・後続母音の影響

×