Text to-speech & voice recognition

Athens University of Economics

Communicating with PC
 Traditional ways
 Mouse
 Keyboard (printer)

Communicating with PC
 Traditional Ways
 Keyboard
 Mouse
 Printer
 Modern Ways
 touch
 speech
 Movement

Speech
 Speech Synthesis
 Speech Recognition

Speech Synthesis
 Input: Text
 Output: Audio stream

Speech Recognition
 Input: Audio stream
 Output: Text

Used In
 Movies 
 Automatic translations

Used In
 Movies 
 Automatic Translation
 Learning Foreign Languages

Used In
 Movies 
 Mobiles

Used In
 Movies 
 Movies
 Robotics

Used In
 Movies 
 Movies
 Robotics
 Games
 Nintendo Wii
 Project Natal (Kinect)

What options do we have today;
 Acapela

 Acapela
 Java Speech API

 Acapela
 Java Speech API
 Dictaphones

Τι επιλογές έτοσμε σήμερα;
 Acapela
 Java Speech API
 Dictaphones
 etc
 Still a long way to go….

What we see here
 Windows Speech API (SAPI)
with .NET 4.0!
 System.Speech;

Why SAPI;
 free
 Quite accurate
 Easily programmable

History of SAPI
 1994: SAPI 1.0
 Windows 95 / Windows NT

History of SAPI
 1994: SAPI 1.0
 1998: SAPI 4.0
 C++ wrapper classes
 ActiveX for Visual basic

History of SAPI
 1994: SAPI 1.0
 1998: SAPI 4.0
 2006: SAPI 5.3
 Windows Vista

Ιστορία τοσ SAPI
 1994: SAPI 1.0
 1998: SAPI 4.0
 2006: SAPI 5.3
 Windows Vista
 2009: SAPI 5.4
 Windows 7

Αλλαγές στα Windows Vista & 7
 Αναβαθμισμένη Speech Recognition
engine

Changes in Windows Vista & 7
 Upgraded Speech Recognition engine
 Separate application with its own GUI

 Checks the UI operation

 Supports more languages -
 English US & UK, Chinese traditional & simplified,
Japanese, German, French, Spanish

 Supports more languages -
 English US & UK, Chinese traditional & simplified,
Japanese, German, French, Spanish
 Managed code speech API (.ΝΕΤ 3.0)

What we use
Technologies
• .NET Framework 4.0
• C# programming language
• Windows Presentation Foundation
Tools
• Windows 7
• Visual Studio 2010
• FREE @ MSDNAA

Windows Speech Synthesis
 Converts words into voice
 Internet settings like:
 intensity
 Pronunciation (voice)
 Introducing WAV files
 By default, uses Microsoft Anna

Windows Speech Recognition
 Uses machine learning algorithms
 Continuously Trained
 Trains using the user’s voice
 Can be used for remote control of the
PC 

Links
 Venus
 StudentGuru
 Exploring Speech Recognition &
Synthesis
 Speech Recognition with C# - Dictation
and custom grammar

Thank you 
Vangos Pterneas
www.vangos.eu
www.vangos.eu/blog

Text to-speech & voice recognition

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (19)

Ähnlich wie Text to-speech & voice recognition

Ähnlich wie Text to-speech & voice recognition (20)

Text to-speech & voice recognition