Weitere ähnliche Inhalte Ähnlich wie JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス (7) Mehr von Shinnosuke Takamichi (20) Kürzlich hochgeladen (12) JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス4. 手順
1. データ収集 (data collection)
a. 指定された言語から,データ候補を収集
2. 音声認識 (ASR)・話者照合 (ASV) のためのデータ洗練
a. 各用途に応じてデータを選択
4
5. データ収集
• 動画検索フレーズの作成
• Wikipedia 記事から,ハイパーリンク付きのフレーズを抽出
• Google Trends から,10年分の「急上昇検索フレーズ」を抽出
• 字幕付き動画の取得
• 上記のフレーズから,該当する動画IDを取得
• そのうち,手動字幕(動画作成者による字幕)付きのものを抽出
• 自動字幕(動画提供者による音声認識結果)は使用しない
• 該当動画の音声と字幕をダウンロード
開始・終了時刻 手動字幕
5
6. 音声認識のためのデータ洗練
• 目的
• よく対応した,音声とテキストの対データを作成したい
• テキストと音声のアライメント(時間対応付け)
• 学習済みモデルに基づくCTCセグメンテーション [Kürzinger20]
• end-to-end 方式の恩恵を受け,生文字を利用可能
• ただし,事前に数字列を読みに変換 (ここだけ言語依存)
• 元々の字幕の時刻も修正
• Transformer と RNN の併用で,長い(数時間〜)音声も処理可能
• スコアリングとデータ洗練
• CTCスコア(推論文字の確率の対数)に対して閾値を設定
• 閾値以下のデータを削除
6
10. 言語 タスク コーパス名 オープン
ソース
サイズ
[時間]
Ja ASR/ASV JNAS [Itou99] No 60
Ja ASR LaboroTVspeech [Ando21] Yes 2,000
Ja ASV Liveness [Shiota15] No 2
Ja ASR/ASV JTubeSpeech (ours) Yes 1,300/900
En ASR GigaSpeech [Chen21] Yes 10,000
En ASV VoxCeleb [Nagrani19] Yes 2,800
Zh ASR AISHELL-2 [Du18] Yes 1,000
Zh ASV CN-Celeb [Fan19] Yes 1,000
データ収集における評価:他のコーパスとの比較
• 英語のコーパス規模には劣るものの,中国語のそれらと同程度
• 日本語話者照合の初のオープンコーパス 10
14. 話者照合における評価:データ洗練と照合性能
• ラベルは正しい? 300動画をランダム抽出しアノテーション
• およそ正しいことを確認.多話者動画を排除できている.
• 話者照合性能は?
• 特徴量やモデルの特徴は論文を参照.
• Equal error rate (EER) 10.9%
• 英語話者照合コーパス VoxCeleb1 と同程度の性能を達成可能
アノテーション
ラベル
TTS single speaker multi speakers
TTS 20 80 0
single speaker 5 95 0
multi speakers 1 36 63
14
15. まとめ
• 提案内容
• 言語非依存で音声認識・話者照合用の日本語コーパスを構築
• 今後の予定
• 本技術を他の言語に適用
• 公開内容(https://github.com/sarulab-speech/jtubespeech)
• 本論文の内容
• 日本語の字幕付き動画IDリスト
• コーパスデータ(近日中に頒布予定)
• 追加内容
• 30言語分の字幕付き動画IDリスト
• 自動字幕の取得スクリプト
15