Adamantidou Eleni

Ανάπτυξη εφαρμογής παροχής
υπηρεσιών με βάση την
αναγνώριση ομιλίας
Αδαμαντίδου Ελένη
Επιβλέποντες:
Συμεωνίδης Ανδρέας,
Αναπληρωτής Καθηγητής ΑΠΘ
Φαλελάκης Μανώλης,
Μεταδιδακτορικός ερευνητής ΑΠΘ
Θεσσαλονίκη, Οκτώβριος 2018
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ
ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ
ΥΠΟΛΟΓΙΣΤΩΝ
ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ & ΥΠΟΛΟΓΙΣΜΩΝ

Σκοπός της διπλωματικής εργασίας
Οκτώβριος 2018
Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση
ομιλίας
2
Διευκόλυνση της χρήσης έξυπνων συσκευών, ιδίως
από ηλικιωμένους και άτομα με μειωμένη όραση
 Προφορική επικοινωνία ανθρώπου-μηχανής
 Αναγνώριση ομιλίας
 Φωνητικές εντολές χρήστη – Προφορική απάντηση
συστήματος
 Υπηρεσίες σχετικές με ανάγκες ηλικιωμένων

Αυτόματη αναγνώριση ομιλίας (ΑΑΟ)
- Μοντέλα
ομιλίας
3
Διαδικασία μετατροπής ομιλίας σε κείμενο
 Φωνητικό λεξικό (dictionary – dic ) :
αρχείο λέξεων με την αντίστοιχη ακολουθία
φωνημάτων
 Γλωσσικό μοντέλο (language model – lm ) :
πιθανότητες εμφάνισης λέξεων -> περιορίζει την
αναζήτηση της επόμενης λέξης
 Ακουστικό μοντέλο (acoustic model – am ):
στατιστική αναπαράσταση φωνημάτων

Αξιολόγηση ΑΑΟ
ομιλίας
4
 3 είδη σφαλμάτων
1. Εισαγωγή (Insertion – I)
2. Διαγραφή (Deletion – D)
3. Αντικατάσταση (Substitution – S)
 Word Error Rate (WER)
όπου Ν το πλήθος των λέξεων
 Ακρίβεια = 1 - WER
N
IDS
WER
++
=

• Δομή εφαρμογής
• Εργαλεία
• Επεκτασιμότητα
• Δημιουργία ελληνικού ειδικού μοντέλου
• Προσαρμογή μοντέλων
Υλοποίηση εφαρμογής
5
ομιλίας

Δομή εφαρμογής
ομιλίας
6
Ηχογράφηση
Αναγνώριση
Ομιλίας
Μετάφραση
Εξαγωγή
Εννοιολογικών
χαρακτηριστικών
Επιλογή της
κατάλληλης
υπηρεσίας
Λήψη της
πληροφορίας
από το διαδίκτυο
Εκφώνηση της
πληροφορίας

Εργαλεία
ομιλίας
7
 CMUSphinx
• Εκπαίδευση και προσαρμογή μοντέλων
• Αποκωδικοποίηση αρχείων ομιλίας
 Wit.ai
 Yandex translate API
 APIs
• Openweathermap
• Google Places, Google Timezone, GoogleGeocoding
• IP-API

Επεκτασιμότητα
ομιλίας
8
Πρότυπα σχεδίασης (Design Patterns)
 Γέφυρα (Bridge)
Επεκτασιμότητα ως προς την προσθήκη νέων
υπηρεσιών.
 Προσαρμογέας (Adapter)
Προσαρμοστικότητα ως προς τη χρήση διαφορετικών
APIs για την ίδια υπηρεσία.

Δημιουργία ελληνικού ειδικού
μοντέλου
ομιλίας
9
 Φωνητικό λεξικό 400 λέξεων (commands_el_dic)
 Γλωσσικό μοντέλο (commands_el_lm)
• εκπαίδευση σε 100 προτάσεις (corpus_lm)
• N-grams
 Ακουστικό μοντέλο (commands_el)
• σύνολο 56 προτάσεων (corpus1)
• συλλογή ηχογραφήσεων για εκπαίδευση
• εκπαίδευση σε 1008 προτάσεις από 18 ομιλητές (9
άνδρες, 9 γυναίκες) – trainingset
• Sphinxtrain

Προσαρμογή ακουστικού μοντέλου
ομιλίας
10
 Απαιτεί λιγότερα δεδομένα για αποτελεσματική
εκπαίδευση.
 Βασικό μοντέλο : γενικευμένο ελληνικό μοντέλο
(el-generic)
 Προσαρμογή πάνω στο trainingset
 Τελικό μοντέλο: el-generic-adapt
 Sphinxbase, Sphinxtrain

• Σύνολα δεδομένων
• Πειράματα σχετικά με την αναγνώριση
ομιλίας
Πειράματα & αποτελέσματα
11
ομιλίας

Σύνολα δεδομένων
ομιλίας
12
 corpus1: 56 προτάσεις
 corpus2 : 50 προτάσεις (διαφορετικές από τις προηγούμενες)
 corpus_lm : Περιέχει τις προτάσεις του corpus1 και ακόμα 44
αντιπροσωπευτικές
Όνομα συνόλου
δεδομένων
Πλήθος
προτάσεων
Χαρακτηριστικά
προτάσεων
Πλήθος
ομιλητών
Χαρακτηριστικά
ομιλητών
training_set 1008 corpus1 18 νέοι
youth 112 corpus1 2 νέοι
elders 211 corpus1 4 ηλικιωμένοι
young_man 50 corpus2 1 νέος
elder_woman 50 corpus2 1 ηλικιωμένη

Έτοιμο μοντέλο
ομιλίας
13
 Φωνητικό λεξικό: el-generic_dic
 Γλωσσικό μοντέλο: el-generic_lm
 Ακουστικό μοντέλο: el-generic
Αριθμός πειράματος Σετ ελέγχου Word Error Rate (%)
1 youth 35.94
2 elders 50.3
3 young_man 29.31
4 elder_woman 33.23

Ειδικό φωνητικό & γλωσσικό μοντέλο
ομιλίας
14
 Φωνητικό λεξικό: commands_el_dic
 Γλωσσικό μοντέλο: commands_el _lm
 Ακουστικό μοντέλο: el-generic
1 youth 7.69
2 elders 9.62
3 young_man 17.52
4 elder_woman 11.48

Προσαρμοσμένο ακουστικό μοντέλο
ομιλίας
15
 Φωνητικό λεξικό: commands_el _dic
 Ακουστικό μοντέλο: el-generic-adapt
1 youth 2.41
2 elders 22.22
3 young_man 9.06
4 elder_woman 32.33

Ειδικό ακουστικό μοντέλο
Οκτώβριος2018
ομιλίας
16
 Ακουστικό μοντέλο: commands_el
1 youth 3.33
2 elders 9.87
3 young_man 12.99
4 elder_woman 19.03

Προσαρμογή στη φωνή
ομιλίας
17
 Ακουστικό μοντέλο: προσαρμοσμένο στη φωνή
1 young_man 13.29
2 elder_woman 16.01

Προσαρμογή στη φωνή με
περισσότερα δεδομένα
ομιλίας
18
 Ακουστικό μοντέλο: προσαρμοσμένο στη φωνή
1 young_man 6.339
2 elder_woman 9.942

Σύγκριση αποτελεσμάτων
ομιλίας
19
Com/Com/Gen Com/Com/Com Com/Com/Voice

Συμπεράσματα
ομιλίας
20
 Ικανοποιητική ακρίβεια ΑΑΟ, καλή λειτουργία του
συνόλου της εφαρμογής
 Γλωσσικό μοντέλο → αυξάνει σε μεγάλο βαθμό την
ακρίβεια
 Ακουστικό μοντέλο :
• Εξειδικευμένο μοντέλο → μεγαλύτερη ακρίβεια
• Προσαρμογή μοντέλου → μεγαλύτερη ακρίβεια ακόμα και
με λίγα δεδομένα εκπαίδευσης
• Προσαρμογή μοντέλου σε μη αντιπροσωπευτικά
δεδομένα → μικρότερη ακρίβεια
• Προσαρμογή στα χαρακτηριστικά ενός χρήστη →
σημαντική αύξηση της ακρίβειας

Μελλοντική Εργασία
ομιλίας
21
 Συλλογή περισσότερων ηχογραφήσεων, ιδίως από
ηλικιωμένους
 Προσαρμογή στη φωνή του χρήστη μέσω της
εφαρμογής
 Έλεγχος και εκ νέου εκπαίδευση σε δεδομένα με
θόρυβο
 Υλοποίηση της εφαρμογής ως διαδικτυακή
υπηρεσία

Επίδειξη λειτουργίας
ομιλίας
22

Ευχαριστίες
ομιλίας
23
Ευχαριστώ θερμά:
 Τον κ. Συμεωνίδη Ανδρέα, Αναπληρωτή Καθηγητή
 Τον κ. Φαλελάκη Μανώλη, Μεταδιδακτορικό
ερευνητή
 Όλους όσους συνέβαλλαν στη συλλογή των
δεδομένων για την εκπαίδευση και τον έλεγχο του
συστήματος, ηχογραφώντας τη φωνή τους

Adamantidou Eleni

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Mehr von ISSEL

Mehr von ISSEL (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (10)

Adamantidou Eleni