1. Ανάπτυξη εφαρμογής παροχής
υπηρεσιών με βάση την
αναγνώριση ομιλίας
Αδαμαντίδου Ελένη
Επιβλέποντες:
Συμεωνίδης Ανδρέας,
Αναπληρωτής Καθηγητής ΑΠΘ
Φαλελάκης Μανώλης,
Μεταδιδακτορικός ερευνητής ΑΠΘ
Θεσσαλονίκη, Οκτώβριος 2018
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ
ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ
ΥΠΟΛΟΓΙΣΤΩΝ
ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ & ΥΠΟΛΟΓΙΣΜΩΝ
2. Σκοπός της διπλωματικής εργασίας
Οκτώβριος 2018
Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση
ομιλίας
2
Διευκόλυνση της χρήσης έξυπνων συσκευών, ιδίως
από ηλικιωμένους και άτομα με μειωμένη όραση
Προφορική επικοινωνία ανθρώπου-μηχανής
Αναγνώριση ομιλίας
Φωνητικές εντολές χρήστη – Προφορική απάντηση
συστήματος
Υπηρεσίες σχετικές με ανάγκες ηλικιωμένων
3. Αυτόματη αναγνώριση ομιλίας (ΑΑΟ)
- Μοντέλα
Οκτώβριος 2018
Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση
ομιλίας
3
Διαδικασία μετατροπής ομιλίας σε κείμενο
Φωνητικό λεξικό (dictionary – dic ) :
αρχείο λέξεων με την αντίστοιχη ακολουθία
φωνημάτων
Γλωσσικό μοντέλο (language model – lm ) :
πιθανότητες εμφάνισης λέξεων -> περιορίζει την
αναζήτηση της επόμενης λέξης
Ακουστικό μοντέλο (acoustic model – am ):
στατιστική αναπαράσταση φωνημάτων
4. Αξιολόγηση ΑΑΟ
Οκτώβριος 2018
Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση
ομιλίας
4
3 είδη σφαλμάτων
1. Εισαγωγή (Insertion – I)
2. Διαγραφή (Deletion – D)
3. Αντικατάσταση (Substitution – S)
Word Error Rate (WER)
όπου Ν το πλήθος των λέξεων
Ακρίβεια = 1 - WER
N
IDS
WER
++
=
5. • Δομή εφαρμογής
• Εργαλεία
• Επεκτασιμότητα
• Δημιουργία ελληνικού ειδικού μοντέλου
• Προσαρμογή μοντέλων
Υλοποίηση εφαρμογής
Οκτώβριος 2018
5
Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση
ομιλίας
6. Δομή εφαρμογής
Οκτώβριος 2018
Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση
ομιλίας
6
Ηχογράφηση
Αναγνώριση
Ομιλίας
Μετάφραση
Εξαγωγή
Εννοιολογικών
χαρακτηριστικών
Επιλογή της
κατάλληλης
υπηρεσίας
Λήψη της
πληροφορίας
από το διαδίκτυο
Εκφώνηση της
πληροφορίας
7. Εργαλεία
Οκτώβριος 2018
Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση
ομιλίας
7
CMUSphinx
• Εκπαίδευση και προσαρμογή μοντέλων
• Αποκωδικοποίηση αρχείων ομιλίας
Wit.ai
Yandex translate API
APIs
• Openweathermap
• Google Places, Google Timezone, GoogleGeocoding
• IP-API
8. Επεκτασιμότητα
Οκτώβριος 2018
Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση
ομιλίας
8
Πρότυπα σχεδίασης (Design Patterns)
Γέφυρα (Bridge)
Επεκτασιμότητα ως προς την προσθήκη νέων
υπηρεσιών.
Προσαρμογέας (Adapter)
Προσαρμοστικότητα ως προς τη χρήση διαφορετικών
APIs για την ίδια υπηρεσία.
9. Δημιουργία ελληνικού ειδικού
μοντέλου
Οκτώβριος 2018
Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση
ομιλίας
9
Φωνητικό λεξικό 400 λέξεων (commands_el_dic)
Γλωσσικό μοντέλο (commands_el_lm)
• εκπαίδευση σε 100 προτάσεις (corpus_lm)
• N-grams
Ακουστικό μοντέλο (commands_el)
• σύνολο 56 προτάσεων (corpus1)
• συλλογή ηχογραφήσεων για εκπαίδευση
• εκπαίδευση σε 1008 προτάσεις από 18 ομιλητές (9
άνδρες, 9 γυναίκες) – trainingset
• Sphinxtrain
10. Προσαρμογή ακουστικού μοντέλου
Οκτώβριος 2018
Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση
ομιλίας
10
Απαιτεί λιγότερα δεδομένα για αποτελεσματική
εκπαίδευση.
Βασικό μοντέλο : γενικευμένο ελληνικό μοντέλο
(el-generic)
Προσαρμογή πάνω στο trainingset
Τελικό μοντέλο: el-generic-adapt
Sphinxbase, Sphinxtrain
11. • Σύνολα δεδομένων
• Πειράματα σχετικά με την αναγνώριση
ομιλίας
Πειράματα & αποτελέσματα
Οκτώβριος 2018
11
Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση
ομιλίας
12. Σύνολα δεδομένων
Οκτώβριος 2018
Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση
ομιλίας
12
corpus1: 56 προτάσεις
corpus2 : 50 προτάσεις (διαφορετικές από τις προηγούμενες)
corpus_lm : Περιέχει τις προτάσεις του corpus1 και ακόμα 44
αντιπροσωπευτικές
Όνομα συνόλου
δεδομένων
Πλήθος
προτάσεων
Χαρακτηριστικά
προτάσεων
Πλήθος
ομιλητών
Χαρακτηριστικά
ομιλητών
training_set 1008 corpus1 18 νέοι
youth 112 corpus1 2 νέοι
elders 211 corpus1 4 ηλικιωμένοι
young_man 50 corpus2 1 νέος
elder_woman 50 corpus2 1 ηλικιωμένη
13. Έτοιμο μοντέλο
Οκτώβριος 2018
Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση
ομιλίας
13
Φωνητικό λεξικό: el-generic_dic
Γλωσσικό μοντέλο: el-generic_lm
Ακουστικό μοντέλο: el-generic
Αριθμός πειράματος Σετ ελέγχου Word Error Rate (%)
1 youth 35.94
2 elders 50.3
3 young_man 29.31
4 elder_woman 33.23
14. Ειδικό φωνητικό & γλωσσικό μοντέλο
Οκτώβριος 2018
Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση
ομιλίας
14
Φωνητικό λεξικό: commands_el_dic
Γλωσσικό μοντέλο: commands_el _lm
Ακουστικό μοντέλο: el-generic
Αριθμός πειράματος Σετ ελέγχου Word Error Rate (%)
1 youth 7.69
2 elders 9.62
3 young_man 17.52
4 elder_woman 11.48
15. Προσαρμοσμένο ακουστικό μοντέλο
Οκτώβριος 2018
Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση
ομιλίας
15
Φωνητικό λεξικό: commands_el _dic
Γλωσσικό μοντέλο: commands_el _lm
Ακουστικό μοντέλο: el-generic-adapt
Αριθμός πειράματος Σετ ελέγχου Word Error Rate (%)
1 youth 2.41
2 elders 22.22
3 young_man 9.06
4 elder_woman 32.33
16. Ειδικό ακουστικό μοντέλο
Οκτώβριος2018
Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση
ομιλίας
16
Φωνητικό λεξικό: commands_el _dic
Γλωσσικό μοντέλο: commands_el _lm
Ακουστικό μοντέλο: commands_el
Αριθμός πειράματος Σετ ελέγχου Word Error Rate (%)
1 youth 3.33
2 elders 9.87
3 young_man 12.99
4 elder_woman 19.03
17. Προσαρμογή στη φωνή
Οκτώβριος 2018
Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση
ομιλίας
17
Φωνητικό λεξικό: commands_el _dic
Γλωσσικό μοντέλο: commands_el _lm
Ακουστικό μοντέλο: προσαρμοσμένο στη φωνή
Αριθμός πειράματος Σετ ελέγχου Word Error Rate (%)
1 young_man 13.29
2 elder_woman 16.01
18. Προσαρμογή στη φωνή με
περισσότερα δεδομένα
Οκτώβριος 2018
Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση
ομιλίας
18
Φωνητικό λεξικό: commands_el _dic
Γλωσσικό μοντέλο: commands_el _lm
Ακουστικό μοντέλο: προσαρμοσμένο στη φωνή
Αριθμός πειράματος Σετ ελέγχου Word Error Rate (%)
1 young_man 6.339
2 elder_woman 9.942
20. Συμπεράσματα
Οκτώβριος 2018
Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση
ομιλίας
20
Ικανοποιητική ακρίβεια ΑΑΟ, καλή λειτουργία του
συνόλου της εφαρμογής
Γλωσσικό μοντέλο → αυξάνει σε μεγάλο βαθμό την
ακρίβεια
Ακουστικό μοντέλο :
• Εξειδικευμένο μοντέλο → μεγαλύτερη ακρίβεια
• Προσαρμογή μοντέλου → μεγαλύτερη ακρίβεια ακόμα και
με λίγα δεδομένα εκπαίδευσης
• Προσαρμογή μοντέλου σε μη αντιπροσωπευτικά
δεδομένα → μικρότερη ακρίβεια
• Προσαρμογή στα χαρακτηριστικά ενός χρήστη →
σημαντική αύξηση της ακρίβειας
21. Μελλοντική Εργασία
Οκτώβριος 2018
Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση
ομιλίας
21
Συλλογή περισσότερων ηχογραφήσεων, ιδίως από
ηλικιωμένους
Προσαρμογή στη φωνή του χρήστη μέσω της
εφαρμογής
Έλεγχος και εκ νέου εκπαίδευση σε δεδομένα με
θόρυβο
Υλοποίηση της εφαρμογής ως διαδικτυακή
υπηρεσία
23. Ευχαριστίες
Οκτώβριος 2018
Ανάπτυξη εφαρμογής παροχής υπηρεσιών με βάση την αναγνώριση
ομιλίας
23
Ευχαριστώ θερμά:
Τον κ. Συμεωνίδη Ανδρέα, Αναπληρωτή Καθηγητή
Τον κ. Φαλελάκη Μανώλη, Μεταδιδακτορικό
ερευνητή
Όλους όσους συνέβαλλαν στη συλλογή των
δεδομένων για την εκπαίδευση και τον έλεγχο του
συστήματος, ηχογραφώντας τη φωνή τους