Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

Cognitive Services Speech Service ことはじめ_20190725

816 Aufrufe

Veröffentlicht am

Cogbot 勉強会 #22 Speech Service ことはじめ

Veröffentlicht in: Technologie
  • Login to see the comments

Cognitive Services Speech Service ことはじめ_20190725

  1. 1. Cognitive Services Speech Service ことはじめ 日本マイクロソフト株式会社 クラウド&ソリューション事業本部 大森 彩子 2019/7/25
  2. 2. microsoft.com/Cognitive Azure Cognitive Services 人間の認知 (Cognitive) 機能の一部を Web API として利用できる “AI パーツ”
  3. 3. microsoft.com/Cognitive Azure Cognitive Services Gesture EventTracking LocalInsights AcademicKnowledge EntityLinking KnowledgeExploration AnswerSearch URLPreview ConversationLearner PersonalityChat CustomDecision BingSpellCheck Language Understanding TextAnalytics TranslatorText QnAMaker WebSearch EntitySearch ImageSearch NewsSearch VideoSearch VisualSearch LocalBusiness Search CustomSearch Autosuggest ComputerVision Face VideoIndexer CustomVision InkRecognizer FormRecognizer ContentModerator AnomalyDetector Personalizer SpeechServices SpeakerRecognition Speech-to-Text Text-to-Speech SpeechTranslation
  4. 4. Speech Services • リアルタイムとバッチ モードに対応 • 単一音声、双方向または複数話者の会話に対応 • 適応力の強化 • コールセンターの特殊な要件に対応した新機能 • 新しいポータル画面では全ての操作が REST に対応 • 49の地域言語と80音声を超える標準ボイス • 9地域言語に対応したカスタム音声 • 4地域言語で ニューラル音声が GA • REST と SDK に対応 • ニューラル機械翻訳(NMT)技術に対応した Speech-to-speech 翻訳 • 10以上の地域言語で利用可能 • カスタマイズ可能 アプリケーションに会話力を 音声からテキストにすばやく変換、自然な応答性を向上 Speech-to-Text Text-to-Speech Speech translation リアルタイムの音声翻訳をアプリに簡単統合
  5. 5. Speech SDK / Speech Device SDK Service Feature SDK REST Speech-to-Text Speech-to-text Yes Yes Batch Transcription No Yes Conversation Transcription Yes No Create Custom Speech Models No Yes Text-to-Speech Text-to-speech Yes Yes Create Custom Voices No Yes Speech translation Yes No Voice-first virtual assistants Yes No
  6. 6. Speech-to-Text Speech Recognition 450 6th St. San Francisco
  7. 7. Speech-to-Text Custom Speech Model(カスタム音声モデル) • アプリケーションやユーザー、環境に合わせ、カスタマ イズされた言語モデルと音響モデル、発話モデルを 作成することが可能 • 22 言語 / 30 地域 ※日本語含む (2019年5月現在) • 音声/テキスト データをアップロードして、マイクロソフ トの最新の音声モデルをベースにしたカスタムモデル を作成し、利用可能 • カスタムモデルのエンドポイントは REST でのみ利用 可能
  8. 8. Speech-to-Text Batch Transcription (バッチ文字起こし) • 大量の音声データを非同期でまとめ て文字起こしする場合に利用 • 無音区間抽出、音声の短時間切り 出しのような事前作業をクラウド側で 自動実施 • REST API のみ • 圧縮された音源に対応(mp3、 ogg) • タイムスタンプ取得 • 発話感情分析(英語のみ)
  9. 9. Speech-to-Text
  10. 10. Speech-to-Text Text to Speech Conversion
  11. 11. Speech-to-Text
  12. 12. Speech-to-Text
  13. 13. Speech Service の使い方いろいろ https://docs.microsoft.com/ja-jp/azure/cognitive-services/speech-service/speech- container-howto https://ascii.jp/elem/000/001/851/1851643/ https://github.com/c-nova/BatchTranscripter
  14. 14. 本日のサンプルコード https://github.com/ayako/CogServicesSpeechSamples_201907
  15. 15. 本日のハンズオン資料 https://docs.microsoft.com/ja-jp/azure/cognitive-services/speech-service/quickstart-csharp-dotnetcore-windows https://docs.microsoft.com/ja-jp/azure/cognitive-services/speech-service/quickstart-csharp-uwp https://docs.microsoft.com/ja-jp/azure/cognitive-services/speech-service/quickstart-js-browser https://docs.microsoft.com/ja-jp/azure/cognitive-services/speech-service/quickstart-js-node https://docs.microsoft.com/ja-jp/azure/cognitive-services/speech-service/quickstart-python https://blog.beachside.dev/entry/2019/07/25/162144
  16. 16. 本日のハンズオン資料 https://docs.microsoft.com/ja-jp/azure/cognitive-services/speech-service/quickstart-dotnet-text-to-speech https://docs.microsoft.com/ja-jp/azure/cognitive-services/speech-service/quickstart-nodejs-text-to-speech https://docs.microsoft.com/ja-jp/azure/cognitive-services/speech-service/quickstart-python-text-to-speech

×