Suche senden
Hochladen
音声APIを使ってみる
•
4 gefällt mir
•
1,842 views
Shin Ise
Folgen
Technologie
Melden
Teilen
Melden
Teilen
1 von 18
Empfohlen
社内勉強会にて 音声ファイルフォーマットについて
社内勉強会にて 音声ファイルフォーマットについて
Natsuki Yamanaka
音声の認識と合成
音声の認識と合成
Akinori Ito
Findy(ファインディ) スタートアップが取り組むべき採用課題まとめ(成長フェーズ別)
Findy(ファインディ) スタートアップが取り組むべき採用課題まとめ(成長フェーズ別)
Yuichiro "Philip" Yamada
Startup Science ①
Startup Science ①
Masa Tadokoro
Startup Science ⑥
Startup Science ⑥
Masa Tadokoro
Startup Science ③
Startup Science ③
Masa Tadokoro
Startup Science ④
Startup Science ④
Masa Tadokoro
Startup Science ②
Startup Science ②
Masa Tadokoro
Empfohlen
社内勉強会にて 音声ファイルフォーマットについて
社内勉強会にて 音声ファイルフォーマットについて
Natsuki Yamanaka
音声の認識と合成
音声の認識と合成
Akinori Ito
Findy(ファインディ) スタートアップが取り組むべき採用課題まとめ(成長フェーズ別)
Findy(ファインディ) スタートアップが取り組むべき採用課題まとめ(成長フェーズ別)
Yuichiro "Philip" Yamada
Startup Science ①
Startup Science ①
Masa Tadokoro
Startup Science ⑥
Startup Science ⑥
Masa Tadokoro
Startup Science ③
Startup Science ③
Masa Tadokoro
Startup Science ④
Startup Science ④
Masa Tadokoro
Startup Science ②
Startup Science ②
Masa Tadokoro
会話型UI事始め
会話型UI事始め
DeNA
翻訳VR作ってみた
翻訳VR作ってみた
尾上 兼透
Nishimotz osc2011oct-v2
Nishimotz osc2011oct-v2
Takuya Nishimoto
アプリの不具合を少なくするために
アプリの不具合を少なくするために
健一 辰濱
Nishimotz pycon2011jan
Nishimotz pycon2011jan
Takuya Nishimoto
C#でiPhone開発とか
C#でiPhone開発とか
Shin Ise
20230425_getsudemy01_Power Platform + Azure Cognitive Serviceを語らせてください!.pdf
20230425_getsudemy01_Power Platform + Azure Cognitive Serviceを語らせてください!.pdf
Demodori Gatsuo - A Certain Citizen Developers Association
もしAppiumとディープラーニングを組み合わせたら
もしAppiumとディープラーニングを組み合わせたら
Nozomi Ito
密着!わたしのコンソールアプリ開発環境
密着!わたしのコンソールアプリ開発環境
Fumihito Yokoyama
Voicepic@FukuiMASeminar
Voicepic@FukuiMASeminar
Manabu Shimobe
Shaping up ATOK to fit to your iPhone / iPad
Shaping up ATOK to fit to your iPhone / iPad
JustSystems Corporation
OpenSpan_PreMarketing
OpenSpan_PreMarketing
motani_kamakura
Web Audio APIの初歩
Web Audio APIの初歩
Shota Kubota
C#でのクロスプラットフォーム モバイル開発環境 Xamarin のご紹介
C#でのクロスプラットフォーム モバイル開発環境 Xamarin のご紹介
Yoshito Tabuchi
アプリ開発作業の効率改善
アプリ開発作業の効率改善
健一 辰濱
テスト駆動で行うネットワーク自動化のすすめ
テスト駆動で行うネットワーク自動化のすすめ
kinunori
Firefox OSアーキテクチャクイックツアー - FxOSコードリーディングミートアップ#21向け追記版
Firefox OSアーキテクチャクイックツアー - FxOSコードリーディングミートアップ#21向け追記版
Masami Yabushita
Delphi開発者のためのSencha入門
Delphi開発者のためのSencha入門
Shinobu Kawano
OSC福岡 20111203
OSC福岡 20111203
Hiroshi Bunya
AbemaTVのコメントビューアを作る話
AbemaTVのコメントビューアを作る話
ロフト くん
Cross platform development with Xamarin 2.0 + MvvmCross
Cross platform development with Xamarin 2.0 + MvvmCross
Shin Ise
いまどきのiOSプログラミング with Xcode5
いまどきのiOSプログラミング with Xcode5
Shin Ise
Weitere ähnliche Inhalte
Ähnlich wie 音声APIを使ってみる
会話型UI事始め
会話型UI事始め
DeNA
翻訳VR作ってみた
翻訳VR作ってみた
尾上 兼透
Nishimotz osc2011oct-v2
Nishimotz osc2011oct-v2
Takuya Nishimoto
アプリの不具合を少なくするために
アプリの不具合を少なくするために
健一 辰濱
Nishimotz pycon2011jan
Nishimotz pycon2011jan
Takuya Nishimoto
C#でiPhone開発とか
C#でiPhone開発とか
Shin Ise
20230425_getsudemy01_Power Platform + Azure Cognitive Serviceを語らせてください!.pdf
20230425_getsudemy01_Power Platform + Azure Cognitive Serviceを語らせてください!.pdf
Demodori Gatsuo - A Certain Citizen Developers Association
もしAppiumとディープラーニングを組み合わせたら
もしAppiumとディープラーニングを組み合わせたら
Nozomi Ito
密着!わたしのコンソールアプリ開発環境
密着!わたしのコンソールアプリ開発環境
Fumihito Yokoyama
Voicepic@FukuiMASeminar
Voicepic@FukuiMASeminar
Manabu Shimobe
Shaping up ATOK to fit to your iPhone / iPad
Shaping up ATOK to fit to your iPhone / iPad
JustSystems Corporation
OpenSpan_PreMarketing
OpenSpan_PreMarketing
motani_kamakura
Web Audio APIの初歩
Web Audio APIの初歩
Shota Kubota
C#でのクロスプラットフォーム モバイル開発環境 Xamarin のご紹介
C#でのクロスプラットフォーム モバイル開発環境 Xamarin のご紹介
Yoshito Tabuchi
アプリ開発作業の効率改善
アプリ開発作業の効率改善
健一 辰濱
テスト駆動で行うネットワーク自動化のすすめ
テスト駆動で行うネットワーク自動化のすすめ
kinunori
Firefox OSアーキテクチャクイックツアー - FxOSコードリーディングミートアップ#21向け追記版
Firefox OSアーキテクチャクイックツアー - FxOSコードリーディングミートアップ#21向け追記版
Masami Yabushita
Delphi開発者のためのSencha入門
Delphi開発者のためのSencha入門
Shinobu Kawano
OSC福岡 20111203
OSC福岡 20111203
Hiroshi Bunya
AbemaTVのコメントビューアを作る話
AbemaTVのコメントビューアを作る話
ロフト くん
Ähnlich wie 音声APIを使ってみる
(20)
会話型UI事始め
会話型UI事始め
翻訳VR作ってみた
翻訳VR作ってみた
Nishimotz osc2011oct-v2
Nishimotz osc2011oct-v2
アプリの不具合を少なくするために
アプリの不具合を少なくするために
Nishimotz pycon2011jan
Nishimotz pycon2011jan
C#でiPhone開発とか
C#でiPhone開発とか
20230425_getsudemy01_Power Platform + Azure Cognitive Serviceを語らせてください!.pdf
20230425_getsudemy01_Power Platform + Azure Cognitive Serviceを語らせてください!.pdf
もしAppiumとディープラーニングを組み合わせたら
もしAppiumとディープラーニングを組み合わせたら
密着!わたしのコンソールアプリ開発環境
密着!わたしのコンソールアプリ開発環境
Voicepic@FukuiMASeminar
Voicepic@FukuiMASeminar
Shaping up ATOK to fit to your iPhone / iPad
Shaping up ATOK to fit to your iPhone / iPad
OpenSpan_PreMarketing
OpenSpan_PreMarketing
Web Audio APIの初歩
Web Audio APIの初歩
C#でのクロスプラットフォーム モバイル開発環境 Xamarin のご紹介
C#でのクロスプラットフォーム モバイル開発環境 Xamarin のご紹介
アプリ開発作業の効率改善
アプリ開発作業の効率改善
テスト駆動で行うネットワーク自動化のすすめ
テスト駆動で行うネットワーク自動化のすすめ
Firefox OSアーキテクチャクイックツアー - FxOSコードリーディングミートアップ#21向け追記版
Firefox OSアーキテクチャクイックツアー - FxOSコードリーディングミートアップ#21向け追記版
Delphi開発者のためのSencha入門
Delphi開発者のためのSencha入門
OSC福岡 20111203
OSC福岡 20111203
AbemaTVのコメントビューアを作る話
AbemaTVのコメントビューアを作る話
Mehr von Shin Ise
Cross platform development with Xamarin 2.0 + MvvmCross
Cross platform development with Xamarin 2.0 + MvvmCross
Shin Ise
いまどきのiOSプログラミング with Xcode5
いまどきのiOSプログラミング with Xcode5
Shin Ise
すまべんLite@関西#4
すまべんLite@関西#4
Shin Ise
すまべんLite@関西#3
すまべんLite@関西#3
Shin Ise
すまべんLite@関西#2
すまべんLite@関西#2
Shin Ise
すごいHaskell読書会#10
すごいHaskell読書会#10
Shin Ise
すまべんLite@関西#1
すまべんLite@関西#1
Shin Ise
Xamarin2.0であそぼう
Xamarin2.0であそぼう
Shin Ise
CoreBluetoothでつくるBluetooth Low Energyデバイス
CoreBluetoothでつくるBluetooth Low Energyデバイス
Shin Ise
すごいHaskell読書会 in 大阪 #4 「第6章 モジュール」
すごいHaskell読書会 in 大阪 #4 「第6章 モジュール」
Shin Ise
GridViewのつかいかた
GridViewのつかいかた
Shin Ise
iOSのVoiceOver対応開発 Rev2
iOSのVoiceOver対応開発 Rev2
Shin Ise
MediaLibrary で あそぼう
MediaLibrary で あそぼう
Shin Ise
実践 Reactive Extensions
実践 Reactive Extensions
Shin Ise
本当は怖いSilverlight for Windows Phone Toolkit
本当は怖いSilverlight for Windows Phone Toolkit
Shin Ise
Socketプログラム Silverlight for Windows Phoneへの移植のポイント
Socketプログラム Silverlight for Windows Phoneへの移植のポイント
Shin Ise
Macで使うWindows Phone 7
Macで使うWindows Phone 7
Shin Ise
iOSのVoiceOver対応開発
iOSのVoiceOver対応開発
Shin Ise
Galaxy tab で持ち歩くモバイルサーバー
Galaxy tab で持ち歩くモバイルサーバー
Shin Ise
ハブインテグレーションでWindows Phone 7の世界に溶け込むアプリを作る
ハブインテグレーションでWindows Phone 7の世界に溶け込むアプリを作る
Shin Ise
Mehr von Shin Ise
(20)
Cross platform development with Xamarin 2.0 + MvvmCross
Cross platform development with Xamarin 2.0 + MvvmCross
いまどきのiOSプログラミング with Xcode5
いまどきのiOSプログラミング with Xcode5
すまべんLite@関西#4
すまべんLite@関西#4
すまべんLite@関西#3
すまべんLite@関西#3
すまべんLite@関西#2
すまべんLite@関西#2
すごいHaskell読書会#10
すごいHaskell読書会#10
すまべんLite@関西#1
すまべんLite@関西#1
Xamarin2.0であそぼう
Xamarin2.0であそぼう
CoreBluetoothでつくるBluetooth Low Energyデバイス
CoreBluetoothでつくるBluetooth Low Energyデバイス
すごいHaskell読書会 in 大阪 #4 「第6章 モジュール」
すごいHaskell読書会 in 大阪 #4 「第6章 モジュール」
GridViewのつかいかた
GridViewのつかいかた
iOSのVoiceOver対応開発 Rev2
iOSのVoiceOver対応開発 Rev2
MediaLibrary で あそぼう
MediaLibrary で あそぼう
実践 Reactive Extensions
実践 Reactive Extensions
本当は怖いSilverlight for Windows Phone Toolkit
本当は怖いSilverlight for Windows Phone Toolkit
Socketプログラム Silverlight for Windows Phoneへの移植のポイント
Socketプログラム Silverlight for Windows Phoneへの移植のポイント
Macで使うWindows Phone 7
Macで使うWindows Phone 7
iOSのVoiceOver対応開発
iOSのVoiceOver対応開発
Galaxy tab で持ち歩くモバイルサーバー
Galaxy tab で持ち歩くモバイルサーバー
ハブインテグレーションでWindows Phone 7の世界に溶け込むアプリを作る
ハブインテグレーションでWindows Phone 7の世界に溶け込むアプリを作る
Kürzlich hochgeladen
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
WSO2
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
CRI Japan, Inc.
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
CRI Japan, Inc.
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
sn679259
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
Toru Tamaki
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
Toru Tamaki
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
atsushi061452
Kürzlich hochgeladen
(10)
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
音声APIを使ってみる
1.
Specialist presents Windows
Phone Arch #9 ⾳音声APIを使ってみる 伊勢 シン 2013/05/14(Tue) @Fenrir Inc. ⼤大阪本社
2.
おさらい
3.
⾳音声APIであそぼう! • Windows Phone
は後発のわりに、 サービスや API が揃ってないけど、 たまにキラリと光るおもしろAPIがある。 • 今回はそんな⾳音声APIをためしてみましょう。
4.
Windows Phone 8
の⾳音声API • 3種類のAPI – ⾳音声認識識 – ⾳音声コマンド – ⾳音声読み上げ (Text-To-Speech) http://msdn.microsoft.com/ja-‐‑‒jp/library/windowsphone/develop/jj206958(v=vs.105).aspx 今回は、認識識と読み上げをやります。
5.
⾳音声合成を試す • 新規プロジェクト作成 • WMAppManifest.xmlの機能に ID_CAP_SPEECHRECOGNITION
を定義 – ⾳音声 API 全般を使⽤用する場合のパーミッション • ボタン1つ配置し、イベントハンドラを開く
6.
⾳音声合成を試す • とりあえずしゃべらせる。 – using Windows.Phone.Speech.Synthesis – メソッドを
async にするのをおわすれなく。 private async void Button_Click(object sender, RoutedEventArgs e) { var synth = new SpeechSynthesizer(); await synth.SpeakTextAsync("こんにちは、Windows Phone です。"); }
7.
⾳音声はどこから来るのか • ⽇日本語エミュレータだと最初から⽇日本語をしゃべる 設定になっている。 – 設定>⾳音声>⾳音声認識識の⾔言語 – 何も指定しなかったら、 ここで設定されている ⾔言語・性別でしゃべる
8.
任意の⾳音声で喋らせる • インストールされている⾳音声から、 ⾔言語・性別を指定して喋らせることも可能。 – InstalledVoices クラスの
All プロパティに、 インストール済みの⾳音声が⼊入ってる。 – SpeechSynthesizer.SetVoice でセット • 阪急の列列⾞車車到着アナウンスは、 上り(梅⽥田⾏行行き)が⼥女女性、下りが男性。
9.
阪急電⾞車車のアナウンス private async void
Button_Click_1(object sender, RoutedEventArgs e) { var synth = new SpeechSynthesizer(); var maleVoice = InstalledVoices.All .Where(v => (v.Gender == VoiceGender.Male) && (v.Language == "ja-JP")) .First(); var femaleVoice = InstalledVoices.All .Where(v => (v.Gender == VoiceGender.Female) && (v.Language == "ja-JP")) .First(); synth.SetVoice(femaleVoice); await synth.SpeakTextAsync( "まもなく2号線に、大阪梅田方面へ向かう電車が、到着します。"); synth.SetVoice(maleVoice); await synth.SpeakTextAsync( "まもなく1号線に、神戸三宮方面へ向かう電車が、到着します。"); }
10.
抑揚が・・・ • なんか抑揚おかしくね?
11.
抑揚とかを制御してみる • SSMLで記述すれば、抑揚などを制御可能 • SSML
– Speech Synthesis Markup Language – ⾳音声合成版のHTML – W3Cの勧告にあります。 http://www.asahi-net.or.jp/~ax2s-kmtn/ref/ accessibility/REC-speech- synthesis11-20100907.html • SSMLの指定は2通り – SpeechSynthesizer.SpeakSsmlAsync • SSML を⽂文字列列で渡す – SpeechSynthesizer.SpeakSsmlFromUriAsync • SSML のおいてあるURLを渡す
12.
SSMLを試してみる • サンプルの Arch09_02_Ssml
を実⾏行行 – SSML を試せるようになってます。 • 主な要素 – http://msdn.microsoft.com/ja-jp/library/hh361578 – w もしくは token : 単語の区切切り • 東京特許許可局局⻑⾧長 • <w>東京</w>特許<w>許可局</w>局⻑⾧長 – sub : 読み • 胸の<sub alias="おと">⿎鼓動</sub>をあきらめないで – break : 休⽌止・韻 • ⼤大阪梅⽥田⽅方⾯面へ向かう電⾞車車が<break strength=“weak“ /> 到着します • ⼤大変なのでほどほどでいきましょう。
13.
⾳音声合成の活⽤用法 • 読み上げを⽣生かしてこういうアプリはどうでしょう。 – TwitterのUserStreamをひたすら読み続けるアプリ – 読み上げニュースリーダー – 電⾞車車の到着をカウントダウン • 「新快速の発⾞車車まであと1分です」
14.
⾳音声認識識を試す • 新規プロジェクト作成 • WMAppManifest.xmlの機能に ID_CAP_SPEECHRECOGNITION ID_CAP_MICROPHONE ID_CAP_NETWORKING
を定義 – ⾳音声を聴きとるので、マイクへのアクセスが必要。 • ボタン1つ配置し、イベントハンドラを開く
15.
⾳音声認識識を試す private async void
Button_Click(object sender, RoutedEventArgs e) { var recognizerUI = new SpeechRecognizerUI(); // 音声認識の候補 recognizerUI.Recognizer.Grammars.AddGrammarFromList("animal", new List<string>() { "いぬ", "さる", "ねこ" }); // 音声検索画面上のタイトル recognizerUI.Settings.ListenText = “好きな動物は以下のうちどれ?”; // 音声検索画面上の詳細 recognizerUI.Settings.ExampleText = "・いぬn・さるn・ねこ"; var result = await recognizerUI.RecognizeWithUIAsync(); if (result.ResultStatus == SpeechRecognitionUIStatus.Succeeded) { MessageBox.Show(result.RecognitionResult.Text); } } http://d.hatena.ne.jp/hyoromo/20121110/1352573009
16.
残念念ながら • ⽇日本語では決まった⾔言葉葉の中から、 どれかが認識識されるということしかできない。 – アプリ内ボイスコマンド的に使える – 英語を選択した場合は、選択肢を決めずに⽂文章⼊入 ⼒力力も可能。
17.
時間があまってれば…⾳音声コマンド • MSDN参照しながらやってみよう – http://msdn.microsoft.com/ja-jp/library/ windowsphone/develop/jj206959(v=vs. 105).aspx • おおまかな⼿手順 – ⾳音声コマンド定義(VCD)を書く – 初回起動時にVCDファイルを システムにインストールするコードを書く – 呼び出された時にパラメータを受け取る
18.
まとめ • Windows Phone
の⾳音声機能を試しました。 • ⾳音声認識識は⽇日本語だとがっかりだけど、 ⾳音声合成はかなりがんばれる。 • 読み上げ機能を⽣生かしたアプリを考えてみては?