SlideShare ist ein Scribd-Unternehmen logo
1 von 21
Downloaden Sie, um offline zu lesen
音声認識ツールキットKaldiを用いた
大語彙日本語音声認識
篠崎隆宏
東京工業大学
工学院 情報通信系
www.ts.ip.titech.ac.jp
1FIT 2016
自己紹介
• これまでの経歴
– 大学院時代は日本語話し言葉コーパスプロジェクト
に参加。音響モデルの作成などを担当
– アメリカUniversity of Washington (UW)、京都大学、
東工大、千葉大学を経て2013年より東工大准教授
– 音響モデルを中心とした音声認識の研究に従事
2
音声認識技術
3
音声
テキスト
テキスト
音声
音声認識
音声合成
音声アシスタント、音声自動翻訳、議事録作成、
字幕作成、対話ロボット、etc.
音声認識器の基本構成
4
A/D変換
特徴量抽出
デコーダ
(パターン認識・
探索)
音響
モデル
言語
モデル
Hello!
マイク
Kaldiツールキットの対象範囲
特徴量抽出
5
周波数分析
(G・H)
Time
デコーダへ
発話内容を表す特徴(H)
話者や抑揚等を表す特徴(G)
Time
廃棄
Gの付替・再合成実験
    HG
 'G
    HG'
元音声
Gを置換
(ブザー音より抽出)
音響モデルと言語モデル
6
 
    WPWOP
OWP
W
W
|maxarg
|maxarg

音響モデル 言語モデル
N-gram
LSTM Neural Network
GMM-HMM
DNN-HMM
デコーディング
7
HMM
音響モデル
発音辞書
N-gram
言語モデル
• 各種モデルを統合して巨大な探索空間を構成
• 最小コストパス探索問題を解くことで認識単語列を求める
モデル学習
• 音響モデルや言語モデルは、予め大量の学習
データから学習
テキスト
データ
ラベル付き
音声データ
言語
モデル
音響
モデル
学習
認識システ
ム
入力音声
認識結果
認識
Kaldi 音声認識ツールキット
• 歴史:
– 2009年のJohns Hopkins University workshopが起源
– 国際的な開発チームにより非常に活発に開発が継続
されている
– 最新の音声認識技術が多く取り入れられている
• 入手
– Githubから無料で配布
– http://kaldi-asr.org/doc/index.html
– Apache license, version 2.0
9
git clone https://github.com/kaldi-asr/kaldi.git kaldi --origin upstream
Kaldi実行に必要な計算機のスペック
• 大語彙認識システムを構築する場合の例
10
CPU
Core i7
メモリ
32GByte
GPU*
GeForce
GTX 970
*ゲーム用のGPUを科学
技術計算に用いるのは
メーカーの保証外(自己
責任)。動作保証が必要な
場合はTesla K20Xなど
*ディープニューラルネットワーク(DNN)の学習を行うのにGPUはほぼ必須
*Kaldiのインストールの前にCUDAをインストール
*コマンドの動作を試してみるだけならノートパソコンでも可
Kaldiツールキットの構成
11
Kaldi
独自コマンド
(src)
外部ツールキット
Openfst, IRSLM, etc.
(tools)
各種認識システム用スクリプト群(レシピ)
英語、日本語、耐雑音、etc.
(egs)
Kaldiのインストール
pikaia1 $ cd kaldi/
pikaia1 $ ls
COPYING INSTALL README.md egs misc src tools windows
pikaia1 $ less INSTALL # インストール手順の説明を読む
pikaia1 $ cd tools/ # 外部ツールキットの自動ダウンロードとコンパイル
pikaia1 $ make -j 4
pikaia1 $ cd ../src/ # kaldiコマンドのコンパイル
pikaia1 $ ./configure
pikaia1 $ make depend –j 4
pikaia1 $ make –j 4
12
CSJレシピを用いた日本語音声認識システムの構築
• KaldiがインストールされたLinuxマシン
• 日本語話し言葉コーパス(CSJ)
– 音声データはKaldiに含まれていないので別途入手
– CSJは国立国語研究所より購入可能
http://pj.ninjal.ac.jp/corpus_center/csj/
• モデル学習に必要な時間
– フルの学習を行う場合、先のスペックのPCで
3-4週間
13
用意するもの
CSJレシピについて
• 東工大篠崎研究室メンバーとアメリカMERL
研究所渡部により共同開発
• DNN構造や学習条件などのシステム
パラメタは東工大のスーパーコンピュータ
TSUBAME2.5を用い、進化計算により最適化
• CSJ標準評価セットで91%の認識精度を実現
14
CSJレシピのディレクトリ構成
15
egs
csj
conf
local
steps
utils
# 独自の処理を行うためのスクリプト
# 他のレシピと共通のスクリプト
# 他のレシピと共通のスクリプト
# 設定ファイル
s5 cmd.sh path.sh run.sh
メイン実行
スクリプト
ジョブ投入設定
スクリプト
パス設定
スクリプト
事前設定
• cmd.sh
– バッチジョブシステム実行かローカル実行かを指定する
(PCでローカル実行の場合はrun.plの使用を指定)
• path.sh
– Kaldiパッケージをインストールした場所等の設定
• run.sh
– CSJデータのパス(CSJDATATOP)
– CSJのバージョン(CSJVER)
16
DNN音声認識システムの構築と認識実験
17
pikaia1 $
pikaia1 $
pikaia1 $
pikaia1 $ nohup ./run.sh >& run.log &
# Wait 3-4 weeks …………………………………………………….
………………………………………………………………………………..
………………………………………………………………..………………
…….
CSJレシピにおけるシステム構築プロセス
18
CSJ
特徴量ファイル
ラベルファイル
GMM-HMM
最尤学習
GMM-HMM
話者適応学習
DNN-HMM
(RBM-pre-
training &
fine tuning)
DNN-HMM
系列学習
認識結果の確認
• GMM-HMM, DNN-HMMの各学習ステージ毎
に認識評価が自動で行われている
– GMM-HMM (tri-phone)の単語誤り率の確認
less exp/tri3/decode_eval1_csj/wer_10
– DNN-HMM(系列学習)の単語誤り率の確認
less exp/dnn5b_pretrain-
dbn_dnn_smbr_i1lats/decode_eval1_csj/wer_10
19
正解単語数
削除誤り挿入誤り置換誤り
正解単語数
誤認識単語数
単語誤り率


)(WER
CSJ以外のレシピについて
• データの入手先
– 多くのデータは有料
入手先:LDC等
https://www.ldc.upenn.edu/
– 一部無料のデータあり
tedlium, voxforge, etc.
• 実行時の注意
– SWB等レシピ開発がクラスタマシン上で行われてい
るものがあり、デフォルトの並列実行数のままPC上
で実行すると過負荷でマシンが落ちる。。。
20
参考資料
• Kaldiホームページ
– http://kaldi-asr.org/
• Povey先生スライド
– http://www.danielpovey.com/kaldi-lectures.html
• CSJレシピチュートリアル
– http://www.ts.ip.titech.ac.jp/demos/csjkaldi/index.
html
21

Weitere ähnliche Inhalte

Was ist angesagt?

JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス Shinnosuke Takamichi
 
Structured Light 技術俯瞰
Structured Light 技術俯瞰Structured Light 技術俯瞰
Structured Light 技術俯瞰Teppei Kurita
 
有名論文から学ぶディープラーニング 2016.03.25
有名論文から学ぶディープラーニング 2016.03.25有名論文から学ぶディープラーニング 2016.03.25
有名論文から学ぶディープラーニング 2016.03.25Minoru Chikamune
 
SLAMチュートリアル大会資料(ORB-SLAM)
SLAMチュートリアル大会資料(ORB-SLAM)SLAMチュートリアル大会資料(ORB-SLAM)
SLAMチュートリアル大会資料(ORB-SLAM)Masaya Kaneko
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII
 
20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code Reading20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code ReadingTakuya Minagawa
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろうShinnosuke Takamichi
 
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向SSII
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII
 
SLAM勉強会(3) LSD-SLAM
SLAM勉強会(3) LSD-SLAMSLAM勉強会(3) LSD-SLAM
SLAM勉強会(3) LSD-SLAMIwami Kazuya
 
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)Masaya Kaneko
 
関東コンピュータビジョン勉強会
関東コンピュータビジョン勉強会関東コンピュータビジョン勉強会
関東コンピュータビジョン勉強会nonane
 
Direct Sparse Odometryの解説
Direct Sparse Odometryの解説Direct Sparse Odometryの解説
Direct Sparse Odometryの解説Masaya Kaneko
 
OpenCVとRGB-Dセンサで作ろう壁面タッチパネル
OpenCVとRGB-Dセンサで作ろう壁面タッチパネルOpenCVとRGB-Dセンサで作ろう壁面タッチパネル
OpenCVとRGB-Dセンサで作ろう壁面タッチパネルTakashi Yoshinaga
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組みAtsushi_Ando
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
ORB-SLAMの手法解説
ORB-SLAMの手法解説ORB-SLAMの手法解説
ORB-SLAMの手法解説Masaya Kaneko
 
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパスShinnosuke Takamichi
 
20190307 visualslam summary
20190307 visualslam summary20190307 visualslam summary
20190307 visualslam summaryTakuya Minagawa
 

Was ist angesagt? (20)

JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
Structured Light 技術俯瞰
Structured Light 技術俯瞰Structured Light 技術俯瞰
Structured Light 技術俯瞰
 
有名論文から学ぶディープラーニング 2016.03.25
有名論文から学ぶディープラーニング 2016.03.25有名論文から学ぶディープラーニング 2016.03.25
有名論文から学ぶディープラーニング 2016.03.25
 
SLAMチュートリアル大会資料(ORB-SLAM)
SLAMチュートリアル大会資料(ORB-SLAM)SLAMチュートリアル大会資料(ORB-SLAM)
SLAMチュートリアル大会資料(ORB-SLAM)
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
 
20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code Reading20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code Reading
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
 
Visual slam
Visual slamVisual slam
Visual slam
 
SLAM勉強会(3) LSD-SLAM
SLAM勉強会(3) LSD-SLAMSLAM勉強会(3) LSD-SLAM
SLAM勉強会(3) LSD-SLAM
 
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
 
関東コンピュータビジョン勉強会
関東コンピュータビジョン勉強会関東コンピュータビジョン勉強会
関東コンピュータビジョン勉強会
 
Direct Sparse Odometryの解説
Direct Sparse Odometryの解説Direct Sparse Odometryの解説
Direct Sparse Odometryの解説
 
OpenCVとRGB-Dセンサで作ろう壁面タッチパネル
OpenCVとRGB-Dセンサで作ろう壁面タッチパネルOpenCVとRGB-Dセンサで作ろう壁面タッチパネル
OpenCVとRGB-Dセンサで作ろう壁面タッチパネル
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
ORB-SLAMの手法解説
ORB-SLAMの手法解説ORB-SLAMの手法解説
ORB-SLAMの手法解説
 
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
20190307 visualslam summary
20190307 visualslam summary20190307 visualslam summary
20190307 visualslam summary
 

Andere mochten auch

【FIT2016チュートリアル】ここから始める情報処理 ~機械学習編~
【FIT2016チュートリアル】ここから始める情報処理  ~機械学習編~【FIT2016チュートリアル】ここから始める情報処理  ~機械学習編~
【FIT2016チュートリアル】ここから始める情報処理 ~機械学習編~Toshihiko Yamasaki
 
検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法
検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法
検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法kt.mako
 
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016Yota Ishida
 
ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】Yuki Arase
 
30th コンピュータビジョン勉強会@関東 DynamicFusion
30th コンピュータビジョン勉強会@関東 DynamicFusion30th コンピュータビジョン勉強会@関東 DynamicFusion
30th コンピュータビジョン勉強会@関東 DynamicFusionHiroki Mizuno
 
UIST2016の舞台裏 (UIST勉強会講演1/2)
UIST2016の舞台裏 (UIST勉強会講演1/2)UIST2016の舞台裏 (UIST勉強会講演1/2)
UIST2016の舞台裏 (UIST勉強会講演1/2)Masa Ogata
 
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...Ken Sakurada
 
音声認識における言語モデル
音声認識における言語モデル音声認識における言語モデル
音声認識における言語モデルKOTARO SETOYAMA
 
CVPR2016を自分なりにまとめてみた
CVPR2016を自分なりにまとめてみたCVPR2016を自分なりにまとめてみた
CVPR2016を自分なりにまとめてみたHiroshi Fukui
 
【慶應大学講演】なぜ、博士課程に進学したか?
【慶應大学講演】なぜ、博士課程に進学したか?【慶應大学講演】なぜ、博士課程に進学したか?
【慶應大学講演】なぜ、博士課程に進学したか?Hirokatsu Kataoka
 
PythonによるCVアルゴリズム実装
PythonによるCVアルゴリズム実装PythonによるCVアルゴリズム実装
PythonによるCVアルゴリズム実装Hirokatsu Kataoka
 
NIPS2015読み会: Ladder Networks
NIPS2015読み会: Ladder NetworksNIPS2015読み会: Ladder Networks
NIPS2015読み会: Ladder NetworksEiichi Matsumoto
 
20170211クレジットカード認識
20170211クレジットカード認識20170211クレジットカード認識
20170211クレジットカード認識Takuya Minagawa
 
Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~Yuya Unno
 
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてGPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてYuya Unno
 
「深層学習」第6章 畳込みニューラルネット
「深層学習」第6章 畳込みニューラルネット「深層学習」第6章 畳込みニューラルネット
「深層学習」第6章 畳込みニューラルネットKen'ichi Matsui
 
Deep Learningと自然言語処理
Deep Learningと自然言語処理Deep Learningと自然言語処理
Deep Learningと自然言語処理Preferred Networks
 
Watson API トレーニング 20160716 rev02
Watson API トレーニング 20160716 rev02Watson API トレーニング 20160716 rev02
Watson API トレーニング 20160716 rev02Hiroaki Komine
 

Andere mochten auch (20)

【FIT2016チュートリアル】ここから始める情報処理 ~機械学習編~
【FIT2016チュートリアル】ここから始める情報処理  ~機械学習編~【FIT2016チュートリアル】ここから始める情報処理  ~機械学習編~
【FIT2016チュートリアル】ここから始める情報処理 ~機械学習編~
 
検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法
検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法
検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法
 
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016
 
ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】
 
音声認識と深層学習
音声認識と深層学習音声認識と深層学習
音声認識と深層学習
 
30th コンピュータビジョン勉強会@関東 DynamicFusion
30th コンピュータビジョン勉強会@関東 DynamicFusion30th コンピュータビジョン勉強会@関東 DynamicFusion
30th コンピュータビジョン勉強会@関東 DynamicFusion
 
UIST2016の舞台裏 (UIST勉強会講演1/2)
UIST2016の舞台裏 (UIST勉強会講演1/2)UIST2016の舞台裏 (UIST勉強会講演1/2)
UIST2016の舞台裏 (UIST勉強会講演1/2)
 
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-­‐rigid Scenes in Real...
 
音声認識における言語モデル
音声認識における言語モデル音声認識における言語モデル
音声認識における言語モデル
 
20160717 dikf
20160717 dikf20160717 dikf
20160717 dikf
 
CVPR2016を自分なりにまとめてみた
CVPR2016を自分なりにまとめてみたCVPR2016を自分なりにまとめてみた
CVPR2016を自分なりにまとめてみた
 
【慶應大学講演】なぜ、博士課程に進学したか?
【慶應大学講演】なぜ、博士課程に進学したか?【慶應大学講演】なぜ、博士課程に進学したか?
【慶應大学講演】なぜ、博士課程に進学したか?
 
PythonによるCVアルゴリズム実装
PythonによるCVアルゴリズム実装PythonによるCVアルゴリズム実装
PythonによるCVアルゴリズム実装
 
NIPS2015読み会: Ladder Networks
NIPS2015読み会: Ladder NetworksNIPS2015読み会: Ladder Networks
NIPS2015読み会: Ladder Networks
 
20170211クレジットカード認識
20170211クレジットカード認識20170211クレジットカード認識
20170211クレジットカード認識
 
Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~
 
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてGPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装について
 
「深層学習」第6章 畳込みニューラルネット
「深層学習」第6章 畳込みニューラルネット「深層学習」第6章 畳込みニューラルネット
「深層学習」第6章 畳込みニューラルネット
 
Deep Learningと自然言語処理
Deep Learningと自然言語処理Deep Learningと自然言語処理
Deep Learningと自然言語処理
 
Watson API トレーニング 20160716 rev02
Watson API トレーニング 20160716 rev02Watson API トレーニング 20160716 rev02
Watson API トレーニング 20160716 rev02
 

Ähnlich wie 【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生

#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版GREE VR Studio Lab
 
日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発Ken IshiKen
 
学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割Takuya Nishimoto
 
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)Yuta Matsunaga
 
Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一悠一 鈴木
 
AI GIRLS COLLECTION_0929
AI GIRLS COLLECTION_0929AI GIRLS COLLECTION_0929
AI GIRLS COLLECTION_0929EikoHoshino
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用NU_I_TODALAB
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
音声認識の仕組みを知ろう
音声認識の仕組みを知ろう音声認識の仕組みを知ろう
音声認識の仕組みを知ろうkthrlab
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展Shinnosuke Takamichi
 
元銀座No1ホステス:藤田 尚弓先生に、生放送で「話し方・伝え方」のことを質問しよう! 先生:藤田 尚弓
元銀座No1ホステス:藤田 尚弓先生に、生放送で「話し方・伝え方」のことを質問しよう! 先生:藤田 尚弓元銀座No1ホステス:藤田 尚弓先生に、生放送で「話し方・伝え方」のことを質問しよう! 先生:藤田 尚弓
元銀座No1ホステス:藤田 尚弓先生に、生放送で「話し方・伝え方」のことを質問しよう! 先生:藤田 尚弓schoowebcampus
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザインShinnosuke Takamichi
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクールYuya Unno
 
人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーションAkinori Ito
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調Yuma Koizumi
 
文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会Tomoyuki Kajiwara
 

Ähnlich wie 【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生 (20)

#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
 
日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発
 
学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割
 
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
 
Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一
 
ヤフー音声認識のご紹介#yjdsw1
ヤフー音声認識のご紹介#yjdsw1ヤフー音声認識のご紹介#yjdsw1
ヤフー音声認識のご紹介#yjdsw1
 
AI GIRLS COLLECTION_0929
AI GIRLS COLLECTION_0929AI GIRLS COLLECTION_0929
AI GIRLS COLLECTION_0929
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
音声認識の仕組みを知ろう
音声認識の仕組みを知ろう音声認識の仕組みを知ろう
音声認識の仕組みを知ろう
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 
元銀座No1ホステス:藤田 尚弓先生に、生放送で「話し方・伝え方」のことを質問しよう! 先生:藤田 尚弓
元銀座No1ホステス:藤田 尚弓先生に、生放送で「話し方・伝え方」のことを質問しよう! 先生:藤田 尚弓元銀座No1ホステス:藤田 尚弓先生に、生放送で「話し方・伝え方」のことを質問しよう! 先生:藤田 尚弓
元銀座No1ホステス:藤田 尚弓先生に、生放送で「話し方・伝え方」のことを質問しよう! 先生:藤田 尚弓
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
 
Jacet2014ykondo_final
Jacet2014ykondo_finalJacet2014ykondo_final
Jacet2014ykondo_final
 
人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会
 
日中Ocr
日中Ocr日中Ocr
日中Ocr
 
深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト
深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト
深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト
 

【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生