SlideShare a Scribd company logo
1 of 20
Ανάπτυξη Ειδησεογραφικού
Βοηθού Πραγματικού χρόνου
Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης
Πολυτεχνική Σχολή
Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Δοϊνάκης Μιχαήλ
ΑΕΜ: 9292
Θεσσαλονίκη, 13 Ιουλίου 2022
Επιβλέποντες: Ανδρέας Συμεωνίδης,
Αν. Καθηγητής Α.Π.Θ
Νικόλαος Μάλαμας,
Υποψήφιος Διδάκτορας
Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου
Δοϊνάκης Μ. 2
Ειδησεογραφικό περιεχόμενο στο διαδίκτυο
Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου
Δοϊνάκης Μ.
Σκοπός της Διπλωματικής Εργασίας
● Ανάπτυξη ψηφιακού βοηθού
● Ανάπτυξη συστήματος Question-Answering (QA)
● Ανάπτυξη συστήματος ταξινόμησης άρθρων
Υποστηριζόμενα είδη ειδήσεων:
● Πολιτικά
● Αθλητικά
● Τεχνολογία
● Ταινίες
● Ηλεκτρονικά παιχνίδια (Gaming)
3
Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου
Δοϊνάκης Μ. 4
Λειτουργία Συνολικού Συστήματος
Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου
Δοϊνάκης Μ. 5
Εξωτερικό Σύστημα
Περιεχόμενο Μαζί με το Mac Studio
παρουσιάστηκε και το Studio
Display, μία οθόνη με σώμα
αλουμινίου ...
Όνομα αρχείου apple_studio_display.json
Τίτλος Studio Display: Η οθόνη της Apple
έχει ένα Α13 Bionic και κάμερα
iPhone
Url https://url.com/article0
Κατηγορία tech
Ημερομηνία έκδοσης 2022-04-30
● Προσομοίωση μέσω συλλογής
πραγματικών άρθρων από
ιστοσελίδες ειδήσεων
● Παροχή άρθρων σε μορφή json
Κατηγορία Αριθμός άρθρων
αθλητικά 5468
πολιτική 1483
τεχνολογία 1329
gaming 1273
ταινίες 1222
άλλο 1427
Σύνολο 12202
Παράδειγμα περιεχομένου αρχείου json στη βάση δεδομένων
Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου
Δοϊνάκης Μ. 6
Ταξινομητής Άρθρων
Υλοποιήσεις:
● Multi-Layer Perceptron (2 hidden layers)
● Fine-tuning Greek BERT (12 attention heads, 12 hidden layers)
Αρχιτεκτονική MLP Αρχιτεκτονική Greek Bert
Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου
Δοϊνάκης Μ.
Rasa
Βασικές λειτουργίες ψηφιακού βοηθού:
● Κατανόηση της επιθυμίας του χρήστη και εκτέλεση κατάλληλης ενέργειας
● Χαιρετισμός/Αποχαιρετισμός του χρήστη
● Παρουσίαση της απάντησης που επέστρεψε το Haystack στο χρήστη μαζί με
χρήσιμες πληροφορίες
● Υποστήριξη εντολών για την ανανέωση της βάσης δεδομένων on demand
7
Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου
Δοϊνάκης Μ. 8
● Ταξινόμηση της
ερώτησης
● Retriever: Αναζήτηση
του καταλληλότερων
εγγράφων στη βάση
δεδομένων
● Reader: Ανάγνωση των
εγγράφων και εξαγωγή
της απάντησης
● Επιστροφή της
απάντησης στο ψηφιακό
βοηθό
RASA Action Server - Haystack
Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου
Δοϊνάκης Μ. 9
Μοντέλα Retriever (1)
Όπου:
● Q: ερώτηση
● d: έγγραφο
● t: λέξη της πρότασης
● TF: πλήθος εμφάνισης της λέξης στο d
● |D|: συνολικός αριθμός εγγράφων
● |f ∊D: t∊f|: πλήθος των εγγράφων που εμφανίζεται το t
Μειονεκτήματα:
● Αύξηση TF→Αύξηση του σκορ
● Δεν λαμβάνεται υπόψη το μέγεθος του
εγγράφου
Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου
Δοϊνάκης Μ.
Μοντέλα Retriever (2)
10
Όπου:
● Q: ερώτηση
● d: έγγραφο
● t: λέξη της πρότασης
● TF: πλήθος εμφάνισης της λέξης στο d
● len_doc: μέγεθος του d
● len_avg: μέσος όρος των μεγεθών των εγγράφων
● |D|: συνολικός αριθμός εγγράφων
● |f ∊D: t∊f|: πλήθος των εγγράφων που εμφανίζεται το t
● k_1: παράμετρος κορεσμού TF
● b: επηρεασμός σκορ από το μέγεθος του εγγράφου
Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου
Δοϊνάκης Μ.
Μοντέλα Reader
● Πολυγλωσσικό μοντέλο της deepset (xml-roberta-large-squad2)
● Fine-tuned Ελληνικά μοντέλα του Greek-Bert
11
Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου
Δοϊνάκης Μ.
TP
TP+FN
Μοντέλα Reader
● Exact Match (EM) = Απόλυτη ταύτιση προβλεπόμενης απάντησης με την
πραγματική απάντηση
Μετρικές Αξιολόγησης
Μοντέλα ταξινόμησης
● Precision =
● Recall =
● Accuracy =
12
TP
TP + FP
● Precision =
● Recall =
Κοινές λέξεις προβλεπόμενης απάντησης με την πραγματική
Συνολικός αριθμός λέξεων στην πραγματική απάντηση
Κοινές λέξεις προβλεπόμενης απαντησης με την πραγματική
Συνολικός αριθμός λέξεων στην προβλεπόμενη απάντηση
TP + TN
TP + TN + FP + FN
Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου
Δοϊνάκης Μ.
Κατηγορία precision recall F1 Score
Macro avg 97.9 97.4 97.7
Weighted avg 98.5 98.2 98.2
Accuracy 98.2
Αξιολόγηση Μοντέλων Ταξινόμησης
13
Κατηγορία precision recall F1 Score
Macro avg 98.4 98.6 98.5
Weighted avg 98.9 98.9 98.9
Accuracy 98.4
Αποτελέσματα ταξινόμησης με το μοντέλο MLP Αποτελέσματα ταξινόμησης με το μοντέλο Greek Bert
Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου
Δοϊνάκης Μ. 14
Αξιολόγηση Μοντέλων Retriever
Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου
Δοϊνάκης Μ. 15
Αξιολόγηση Μοντέλων Reader
Μοντέλο EM F1 Score
xlm-roberta-large-squad2 55.7 75.8
squad_bert_el 57.1 74.9
qacombination_bert_el 55.6 74.3
newsqa_bert_el 39.2 58.8
nq_bert_el 38.5 57.5
triviaqa_bert_el 27.9 40.9
Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου
Δοϊνάκης Μ.
Συμπεράσματα
● RASA → Εκπαίδευση βοηθού με περιορισμένο σύνολο δεδομένων
● Greek-Bert vs MLP→ Greek-Bert νοηματική σύνδεση
● Καθορισμός συνολικής απόδοσης από το τμήμα με τη μικρότερη απόδοση
● Ικανοποιητική απόδοση πολυ-γλωσσικών μοντέλων στα Ελληνικά
16
Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου
Δοϊνάκης Μ.
Μελλοντικές Επεκτάσεις
● Υλοποίηση συστήματος παροχής άρθρων
● Έκθεση του συστήματος σε δοκιμαστικό κοινό
● Συλλογή ερωτήσεων για fine-tuning του Greek Bert
● Ενσωμάτωση συστήματος σε γνωστές εφαρμογές όπως messenger,
mattermost, discord, slack κτλ.
● Συνεχής βελτιστοποίηση των τμημάτων του συστήματος
17
Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου
Δοϊνάκης Μ. 18
Παρουσίαση Διεπαφής
Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου
Δοϊνάκης Μ.
Ευχαριστώ για την
για την προσοχή
σας!
Ερωτήσεις;
19
Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου
Δοϊνάκης Μ. 21
Παρουσίαση Διεπαφής (2)

More Related Content

Similar to Real time news assistant

Ανίχνευση και Ανάλυση Συναισθήματος Πτυχών Κριτικών
Ανίχνευση και Ανάλυση Συναισθήματος Πτυχών ΚριτικώνΑνίχνευση και Ανάλυση Συναισθήματος Πτυχών Κριτικών
Ανίχνευση και Ανάλυση Συναισθήματος Πτυχών Κριτικών
ISSEL
 
Aspect-Based Sentiment Analysis for Reviews
Aspect-Based Sentiment Analysis for ReviewsAspect-Based Sentiment Analysis for Reviews
Aspect-Based Sentiment Analysis for Reviews
ISSEL
 
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
ISSEL
 
Δημιουργία Πλατφόρμας για τη Διεξαγωγή Online Διαγωνισμών Προγραμματισμού
Δημιουργία Πλατφόρμας για τη Διεξαγωγή Online Διαγωνισμών ΠρογραμματισμούΔημιουργία Πλατφόρμας για τη Διεξαγωγή Online Διαγωνισμών Προγραμματισμού
Δημιουργία Πλατφόρμας για τη Διεξαγωγή Online Διαγωνισμών Προγραμματισμού
Stesia Papavasileiou
 
Σχεδίαση και ανάπτυξη μηχανισμού αναγνώρισης επιθέσεων ασφαλείας σε διαδικτυα...
Σχεδίαση και ανάπτυξη μηχανισμού αναγνώρισης επιθέσεων ασφαλείας σε διαδικτυα...Σχεδίαση και ανάπτυξη μηχανισμού αναγνώρισης επιθέσεων ασφαλείας σε διαδικτυα...
Σχεδίαση και ανάπτυξη μηχανισμού αναγνώρισης επιθέσεων ασφαλείας σε διαδικτυα...
ISSEL
 
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία ΕφαρµογήςΑνάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
ISSEL
 
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων σε Αποθήκες Λογισμικού με σκοπό την Εξα...
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων σε Αποθήκες Λογισμικού με  σκοπό την Εξα...Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων σε Αποθήκες Λογισμικού με  σκοπό την Εξα...
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων σε Αποθήκες Λογισμικού με σκοπό την Εξα...
ISSEL
 
Applying Data Mining Techniques on Software Repositories to Extract Design an...
Applying Data Mining Techniques on Software Repositories to Extract Design an...Applying Data Mining Techniques on Software Repositories to Extract Design an...
Applying Data Mining Techniques on Software Repositories to Extract Design an...
ISSEL
 

Similar to Real time news assistant (20)

Analysis and profiling of developer profiles using data mining techniques fro...
Analysis and profiling of developer profiles using data mining techniques fro...Analysis and profiling of developer profiles using data mining techniques fro...
Analysis and profiling of developer profiles using data mining techniques fro...
 
Ανίχνευση και Ανάλυση Συναισθήματος Πτυχών Κριτικών
Ανίχνευση και Ανάλυση Συναισθήματος Πτυχών ΚριτικώνΑνίχνευση και Ανάλυση Συναισθήματος Πτυχών Κριτικών
Ανίχνευση και Ανάλυση Συναισθήματος Πτυχών Κριτικών
 
Aspect-Based Sentiment Analysis for Reviews
Aspect-Based Sentiment Analysis for ReviewsAspect-Based Sentiment Analysis for Reviews
Aspect-Based Sentiment Analysis for Reviews
 
Loutroukis Anastasios
Loutroukis AnastasiosLoutroukis Anastasios
Loutroukis Anastasios
 
ΠΑΡΟΥΣΙΑΣΗ 10
ΠΑΡΟΥΣΙΑΣΗ 10ΠΑΡΟΥΣΙΑΣΗ 10
ΠΑΡΟΥΣΙΑΣΗ 10
 
Presentation 10
Presentation 10Presentation 10
Presentation 10
 
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
 
Δημιουργία Πλατφόρμας για τη Διεξαγωγή Online Διαγωνισμών Προγραμματισμού
Δημιουργία Πλατφόρμας για τη Διεξαγωγή Online Διαγωνισμών ΠρογραμματισμούΔημιουργία Πλατφόρμας για τη Διεξαγωγή Online Διαγωνισμών Προγραμματισμού
Δημιουργία Πλατφόρμας για τη Διεξαγωγή Online Διαγωνισμών Προγραμματισμού
 
Georgia Pantalona
Georgia PantalonaGeorgia Pantalona
Georgia Pantalona
 
Anastasios Kakouris
Anastasios KakourisAnastasios Kakouris
Anastasios Kakouris
 
Narlis Eystratios
Narlis EystratiosNarlis Eystratios
Narlis Eystratios
 
Γκιλίρης Ιωάννης 7419
Γκιλίρης Ιωάννης 7419Γκιλίρης Ιωάννης 7419
Γκιλίρης Ιωάννης 7419
 
Design and development of a Machine Learning based attack detection system fo...
Design and development of a Machine Learning based attack detection system fo...Design and development of a Machine Learning based attack detection system fo...
Design and development of a Machine Learning based attack detection system fo...
 
Σχεδίαση και ανάπτυξη μηχανισμού αναγνώρισης επιθέσεων ασφαλείας σε διαδικτυα...
Σχεδίαση και ανάπτυξη μηχανισμού αναγνώρισης επιθέσεων ασφαλείας σε διαδικτυα...Σχεδίαση και ανάπτυξη μηχανισμού αναγνώρισης επιθέσεων ασφαλείας σε διαδικτυα...
Σχεδίαση και ανάπτυξη μηχανισμού αναγνώρισης επιθέσεων ασφαλείας σε διαδικτυα...
 
Ιωάννη Α. Ζαφειρίου
Ιωάννη Α. ΖαφειρίουΙωάννη Α. Ζαφειρίου
Ιωάννη Α. Ζαφειρίου
 
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία ΕφαρµογήςΑνάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
 
Avouris teaching python
Avouris teaching pythonAvouris teaching python
Avouris teaching python
 
Kagiafas Nikolaos Thesis Presentation
Kagiafas Nikolaos Thesis PresentationKagiafas Nikolaos Thesis Presentation
Kagiafas Nikolaos Thesis Presentation
 
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων σε Αποθήκες Λογισμικού με σκοπό την Εξα...
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων σε Αποθήκες Λογισμικού με  σκοπό την Εξα...Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων σε Αποθήκες Λογισμικού με  σκοπό την Εξα...
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων σε Αποθήκες Λογισμικού με σκοπό την Εξα...
 
Applying Data Mining Techniques on Software Repositories to Extract Design an...
Applying Data Mining Techniques on Software Repositories to Extract Design an...Applying Data Mining Techniques on Software Repositories to Extract Design an...
Applying Data Mining Techniques on Software Repositories to Extract Design an...
 

More from ISSEL

Implementation of a platform for assessing indoor spaces regarding their frie...
Implementation of a platform for assessing indoor spaces regarding their frie...Implementation of a platform for assessing indoor spaces regarding their frie...
Implementation of a platform for assessing indoor spaces regarding their frie...
ISSEL
 
Autonomous car position calculation with particle filters using traffic data ...
Autonomous car position calculation with particle filters using traffic data ...Autonomous car position calculation with particle filters using traffic data ...
Autonomous car position calculation with particle filters using traffic data ...
ISSEL
 
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
ISSEL
 
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής ΝοημοσύνηςΑνάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης
ISSEL
 
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptxΑνάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
ISSEL
 
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
ISSEL
 
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
ISSEL
 
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
ISSEL
 
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
ISSEL
 
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας ΙσχυρισμώνΔημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
ISSEL
 
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµαταΕξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
ISSEL
 
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...
ISSEL
 
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ISSEL
 
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
ISSEL
 
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικούΕξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
ISSEL
 
Camera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environmentsCamera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environments
ISSEL
 
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
ISSEL
 
Design and implementation of an automation mechanism to automatically develop...
Design and implementation of an automation mechanism to automatically develop...Design and implementation of an automation mechanism to automatically develop...
Design and implementation of an automation mechanism to automatically develop...
ISSEL
 
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...
ISSEL
 
Static Analysis of Python code and Identification of Potential Security Vulne...
Static Analysis of Python code and Identification of Potential Security Vulne...Static Analysis of Python code and Identification of Potential Security Vulne...
Static Analysis of Python code and Identification of Potential Security Vulne...
ISSEL
 

More from ISSEL (20)

Implementation of a platform for assessing indoor spaces regarding their frie...
Implementation of a platform for assessing indoor spaces regarding their frie...Implementation of a platform for assessing indoor spaces regarding their frie...
Implementation of a platform for assessing indoor spaces regarding their frie...
 
Autonomous car position calculation with particle filters using traffic data ...
Autonomous car position calculation with particle filters using traffic data ...Autonomous car position calculation with particle filters using traffic data ...
Autonomous car position calculation with particle filters using traffic data ...
 
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
 
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής ΝοημοσύνηςΑνάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης
 
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptxΑνάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
 
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
 
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
 
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
 
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
 
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας ΙσχυρισμώνΔημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
 
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµαταΕξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
 
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...
 
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
 
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
 
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικούΕξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
 
Camera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environmentsCamera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environments
 
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
 
Design and implementation of an automation mechanism to automatically develop...
Design and implementation of an automation mechanism to automatically develop...Design and implementation of an automation mechanism to automatically develop...
Design and implementation of an automation mechanism to automatically develop...
 
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...
 
Static Analysis of Python code and Identification of Potential Security Vulne...
Static Analysis of Python code and Identification of Potential Security Vulne...Static Analysis of Python code and Identification of Potential Security Vulne...
Static Analysis of Python code and Identification of Potential Security Vulne...
 

Real time news assistant

  • 1. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Δοϊνάκης Μιχαήλ ΑΕΜ: 9292 Θεσσαλονίκη, 13 Ιουλίου 2022 Επιβλέποντες: Ανδρέας Συμεωνίδης, Αν. Καθηγητής Α.Π.Θ Νικόλαος Μάλαμας, Υποψήφιος Διδάκτορας
  • 2. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. 2 Ειδησεογραφικό περιεχόμενο στο διαδίκτυο
  • 3. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. Σκοπός της Διπλωματικής Εργασίας ● Ανάπτυξη ψηφιακού βοηθού ● Ανάπτυξη συστήματος Question-Answering (QA) ● Ανάπτυξη συστήματος ταξινόμησης άρθρων Υποστηριζόμενα είδη ειδήσεων: ● Πολιτικά ● Αθλητικά ● Τεχνολογία ● Ταινίες ● Ηλεκτρονικά παιχνίδια (Gaming) 3
  • 4. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. 4 Λειτουργία Συνολικού Συστήματος
  • 5. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. 5 Εξωτερικό Σύστημα Περιεχόμενο Μαζί με το Mac Studio παρουσιάστηκε και το Studio Display, μία οθόνη με σώμα αλουμινίου ... Όνομα αρχείου apple_studio_display.json Τίτλος Studio Display: Η οθόνη της Apple έχει ένα Α13 Bionic και κάμερα iPhone Url https://url.com/article0 Κατηγορία tech Ημερομηνία έκδοσης 2022-04-30 ● Προσομοίωση μέσω συλλογής πραγματικών άρθρων από ιστοσελίδες ειδήσεων ● Παροχή άρθρων σε μορφή json Κατηγορία Αριθμός άρθρων αθλητικά 5468 πολιτική 1483 τεχνολογία 1329 gaming 1273 ταινίες 1222 άλλο 1427 Σύνολο 12202 Παράδειγμα περιεχομένου αρχείου json στη βάση δεδομένων
  • 6. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. 6 Ταξινομητής Άρθρων Υλοποιήσεις: ● Multi-Layer Perceptron (2 hidden layers) ● Fine-tuning Greek BERT (12 attention heads, 12 hidden layers) Αρχιτεκτονική MLP Αρχιτεκτονική Greek Bert
  • 7. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. Rasa Βασικές λειτουργίες ψηφιακού βοηθού: ● Κατανόηση της επιθυμίας του χρήστη και εκτέλεση κατάλληλης ενέργειας ● Χαιρετισμός/Αποχαιρετισμός του χρήστη ● Παρουσίαση της απάντησης που επέστρεψε το Haystack στο χρήστη μαζί με χρήσιμες πληροφορίες ● Υποστήριξη εντολών για την ανανέωση της βάσης δεδομένων on demand 7
  • 8. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. 8 ● Ταξινόμηση της ερώτησης ● Retriever: Αναζήτηση του καταλληλότερων εγγράφων στη βάση δεδομένων ● Reader: Ανάγνωση των εγγράφων και εξαγωγή της απάντησης ● Επιστροφή της απάντησης στο ψηφιακό βοηθό RASA Action Server - Haystack
  • 9. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. 9 Μοντέλα Retriever (1) Όπου: ● Q: ερώτηση ● d: έγγραφο ● t: λέξη της πρότασης ● TF: πλήθος εμφάνισης της λέξης στο d ● |D|: συνολικός αριθμός εγγράφων ● |f ∊D: t∊f|: πλήθος των εγγράφων που εμφανίζεται το t Μειονεκτήματα: ● Αύξηση TF→Αύξηση του σκορ ● Δεν λαμβάνεται υπόψη το μέγεθος του εγγράφου
  • 10. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. Μοντέλα Retriever (2) 10 Όπου: ● Q: ερώτηση ● d: έγγραφο ● t: λέξη της πρότασης ● TF: πλήθος εμφάνισης της λέξης στο d ● len_doc: μέγεθος του d ● len_avg: μέσος όρος των μεγεθών των εγγράφων ● |D|: συνολικός αριθμός εγγράφων ● |f ∊D: t∊f|: πλήθος των εγγράφων που εμφανίζεται το t ● k_1: παράμετρος κορεσμού TF ● b: επηρεασμός σκορ από το μέγεθος του εγγράφου
  • 11. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. Μοντέλα Reader ● Πολυγλωσσικό μοντέλο της deepset (xml-roberta-large-squad2) ● Fine-tuned Ελληνικά μοντέλα του Greek-Bert 11
  • 12. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. TP TP+FN Μοντέλα Reader ● Exact Match (EM) = Απόλυτη ταύτιση προβλεπόμενης απάντησης με την πραγματική απάντηση Μετρικές Αξιολόγησης Μοντέλα ταξινόμησης ● Precision = ● Recall = ● Accuracy = 12 TP TP + FP ● Precision = ● Recall = Κοινές λέξεις προβλεπόμενης απάντησης με την πραγματική Συνολικός αριθμός λέξεων στην πραγματική απάντηση Κοινές λέξεις προβλεπόμενης απαντησης με την πραγματική Συνολικός αριθμός λέξεων στην προβλεπόμενη απάντηση TP + TN TP + TN + FP + FN
  • 13. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. Κατηγορία precision recall F1 Score Macro avg 97.9 97.4 97.7 Weighted avg 98.5 98.2 98.2 Accuracy 98.2 Αξιολόγηση Μοντέλων Ταξινόμησης 13 Κατηγορία precision recall F1 Score Macro avg 98.4 98.6 98.5 Weighted avg 98.9 98.9 98.9 Accuracy 98.4 Αποτελέσματα ταξινόμησης με το μοντέλο MLP Αποτελέσματα ταξινόμησης με το μοντέλο Greek Bert
  • 14. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. 14 Αξιολόγηση Μοντέλων Retriever
  • 15. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. 15 Αξιολόγηση Μοντέλων Reader Μοντέλο EM F1 Score xlm-roberta-large-squad2 55.7 75.8 squad_bert_el 57.1 74.9 qacombination_bert_el 55.6 74.3 newsqa_bert_el 39.2 58.8 nq_bert_el 38.5 57.5 triviaqa_bert_el 27.9 40.9
  • 16. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. Συμπεράσματα ● RASA → Εκπαίδευση βοηθού με περιορισμένο σύνολο δεδομένων ● Greek-Bert vs MLP→ Greek-Bert νοηματική σύνδεση ● Καθορισμός συνολικής απόδοσης από το τμήμα με τη μικρότερη απόδοση ● Ικανοποιητική απόδοση πολυ-γλωσσικών μοντέλων στα Ελληνικά 16
  • 17. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. Μελλοντικές Επεκτάσεις ● Υλοποίηση συστήματος παροχής άρθρων ● Έκθεση του συστήματος σε δοκιμαστικό κοινό ● Συλλογή ερωτήσεων για fine-tuning του Greek Bert ● Ενσωμάτωση συστήματος σε γνωστές εφαρμογές όπως messenger, mattermost, discord, slack κτλ. ● Συνεχής βελτιστοποίηση των τμημάτων του συστήματος 17
  • 18. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. 18 Παρουσίαση Διεπαφής
  • 19. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. Ευχαριστώ για την για την προσοχή σας! Ερωτήσεις; 19
  • 20. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου Δοϊνάκης Μ. 21 Παρουσίαση Διεπαφής (2)

Editor's Notes

  1. Ο όγκος της πληροφορίας που παράγεται καθημερινά στο διαδίκτυο αυξάνεται πολύ γρήγορα και ένας από τους τομείς ο οποίος υποφέρει από τον καθημερινό βομβαρδισμό πληροφορίας είναι και αυτός των ειδήσεων. Χιλιάδες άρθρα δημοσιεύονται καθημερινά καθιστώντας αδύνατη την ανάγνωση και την εξαγωγή πληροφορίας από αυτά. Επιπλέον, ένα άρθρο είναι σχετικό με την επικαιρότητα μόνο για περιορισμένο χρονικό διάστημα συνεπώς η εξαγωγή πληροφορίας σε πραγματικό χρόνο καθίσταται αναγκαία. Η παρούσα διπλωματική εργασία μελετά έναν τρόπο για αυτοματοποίηση της διαδικασίας αναζήτησης απαντήσεων σε ερωτήσεις που αφορούν την επικαιρότητα.
  2. Στόχος της παρούσας διπλωματικής εργασίας είναι η ανάπτυξη και συντήρηση ενός ψηφιακού βοηθού, ο οποίος θα αναγνωρίζει τις επιθυμίες των χρηστών του και θα παρουσιάζει σε αυτούς απαντήσεις με ευνόητο τρόπο. Οι χρήστες θα έχουν τη δυνατότητα να διατυπώνουν ερωτήσεις που αφορούν την επικαιρότητα (δηλαδή για θέματα ειδήσεων) που αφορούν: Πολιτική Αθλητικά Τεχνολογία Ταινίες Ηλεκτρονικά Παιχνίδια (Gaming) Σε συνδυασμό με το ψηφιακό βοηθό μελετήθηκε και η ανάπτυξη ενός συστήματος ερώτησης απάντησης για την εύρεση της απάντησης στην ερώτηση του χρήστη. Ακόμη, μελετήθηκε και η εκπαίδευση μοντέλων κατανόησης φυσικής γλώσσας με στόχο την κατηγοριοποίηση άρθρων στις κατηγορίες που αναφέρθηκαν. Προτού παρουσιαστεί το συνολικό σύστημα αξίζει να σημειωθεί ότι για την ανάπτυξη του ψηφιακού βοηθού χρησιμοποιήθηκε το RASA (open source framework για το σκοπό αυτό) και για την ανάπτυξη του συστήματος QA χρησιμοποιήθηκε το Haystack (open source framework για αναζήτηση σε μεγάλες βάσεις δεδομένων).
  3. Η λειτουργία του συνολικού συστήματος μπορεί να παρουσιαστεί με το παρόν διάγραμμα. Αρχικά, ένα εξωτερικό σύστημα παρέχει άρθρα από το διαδίκτυο στο σύστημα που αναπτύχθηκε. Στη συνέχεια, τα άρθρα περνούν από έναν ταξινομητή, ο οποίος τα αντιστοιχίζει σε μία από τις υποστηριζόμενες κατηγορίες και τα αποθηκεύει σε μία βάση δεδομένων (elasticsearch). Ως είσοδος του χρήστη ορίζεται οτιδήποτε εισάγει ο ίδιος μέσω του πληκτρολογίου στην επικοινωνία του με τον ψηφιακό βοηθό. Έπειτα, το RASA επεξεργάζεται την είσοδο του χρήστη με στόχο να εξάγει την επιθυμία του. Σε περίπτωση ανιχνευθεί επιθυμία για ερώτηση, τότε η είσοδος περνάει στο σύστημα ερώτησης απάντησης το οποίο επιστρέφει την πιο πιθανή απάντηση στην ερώτηση του χρήστη.
  4. Το εξωτερικό σύστημα προσομοιώθηκε μέσω της αυτοματοποιημένης λήψης άρθρων από πραγματικές ιστοσελίδες ειδησεογραφικού περιεχομένου. Με τον τρόπο αυτό δημιουργήθηκε ένα σύνολο δεδομένων με συνολικά 12202 άρθρα. Τα άρθρα έχουν τη μορφή αρχείων json και αποθηκεύονται στη βάση δεδομένων μαζί με το όνομα, τον τίτλο, το link από την ιστοσελίδα την οποία προήλθαν, την κατηγορία και την ημερομηνία έκδοσης τους.
  5. Για την ταξινόμηση των άρθρων μελετήθηκαν δύο υλοποιήσεις. Η πρώτη, ήταν η κατασκευή ενός Multi-Layer Perceptron με 2 hidden layers και η δεύτερη ήταν το fine tuning του Ελληνικού BERT μοντέλου που αποτελείται από 12 attention heads, 12 hidden layers και έχει ένα λεξιλόγιο 35000 λέξεων. Και τα 2 μοντέλα εκπαιδεύτηκαν με το ίδιο σύνολο άρθρων που αποκτήθηκαν όπως αναφέρθηκε προηγουμένως. Κάτι που αξίζει να σημειωθεί στο σημείο αυτό είναι ότι το MLP εξαιτίας της απλής αρχιτεκτονικής του εκπαιδεύεται πιο γρήγορα από το μοντέλο Greek-Bert.
  6. Μερικές από τις βασικές λειτουργίες του ψηφιακού βοηθού είναι οι εξής: Κατανόηση της επιθυμίας του χρηστη και εκτέλεση κατάλληλης ενέργειας Χαιρετισμός/Αποχαιρετισμός του χρήστη Παρουσίαση της απάντησης που επέστρεψε το Haystack στο χρήστη μαζί με χρήσιμες πληροφορίες Υποστήριξη εντολών για την ανανέωση της βάσης δεδομένων on demand
  7. Στη παρούσα διαφάνεια παρουσιάζεται το σύστημα ερώτησης-απάντησης. Ως είσοδος ορίζεται η ερώτηση που έχει προηγουμένως αναγνωριστεί από το RASA. Αρχικά, η ερώτηση περνάει από έναν ταξινομητή, ο οποίος την ταξινομεί σε μία από τις διαθέσιμες κατηγορίες. Στη συνέχεια, η ερώτηση αλλά και η πληροφορία της ταξινόμησης φτάνουν στον Retriever ο οποίος ανατρέχει στη βάση και αναγνωρίζει ποια έγγραφα ανταποκρίνονται περισσότερο στην ερώτηση του χρήστη. Η αναζήτηση γίνεται μόνο στα έγγραφα που είναι της συγκεκριμένης κατηγορίας που ταξινομήθηκε η ερώτηση. Από τα πιο σχετικά έγγραφα ο Retriever επιστρέφει συγκεκριμένο αριθμό στον Reader. Αυτός με τη σειρά του “διαβάζει” το έγγραφο σε παράθυρα και επιστρέφει στην έξοδο την πιο πιθανή απάντηση. Το μοντέλο του Reader δέχεται ως είσοδο ένα συγκεκριμένο μήκος πρότασης. Σε περίπτωση που το κείμενο εισόδου στον Reader ξεπερνάει το μέγιστο μέγεθος εισόδου, τότε αυτό χωρίζεται σε κομμάτια με μέγιστο μέγεθος max_sec_len επικαλυπτόμενα μεταξύ τους κατά έναν αριθμό λέξεων, doc_stride. Στη συνέχεια, τα κομμάτια αυτά εισέρχονται με τη σειρά στον Reader ο οποίος επιστρέφει την απάντηση πίσω στο RASA. Η επικάλυψη των κομματιών είναι απαραίτητη ώστε να βεβαιωθεί ότι η απάντηση δεν χωρίστηκε ανάμεσα σε δύο κομμάτια.
  8. Το πρώτο μοντέλο Retriever είναι το TF-IDF. Μέσω αυτής αποδίδεται ένα σκορ σε κάθε έγγραφο της βάσης δεδομένων για το πόσο σχετικό είναι το αντίστοιχο έγγραφο με την εισερχόμενη ερώτηση. Για κάθε λέξη της ερώτησης υπολογίζεται το γινόμενο του πλήθους εμφάνισης της λέξης σε κάθε έγγραφο και πολλαπλασιάζεται με την αντίστροφη συχνότητα εμφάνισης της λέξης στο σύνολο των εγγράφων, και στο τέλος αθροίζονται εξάγωντας έτσι ενα σκορ για την πρόταση για κάθε έγγραφο. Το έγγραφο που έχει το μεγαλύτερο σκορ είναι και αυτό που είναι το πιο σχετικό με την πρόταση. Παρά το γεγονός ότι η παραπάνω μέθοδος είναι αρκετά αποδοτική έχει δύο βασικά μειονεκτήματα όσο αυξάνεται η συχνότητα εμφάνισης της λέξης στο έγγραφο τόσο αυξάνεται και το σκορ της, χωρίς ωστόσο αυτό να σημαίνει ότι το συγκεκριμένο έγγραφο είναι πιο σχετικό με την αρχική πρόταση. Επιπλέον, η TF-IDF δεν λαμβάνει καθόλου υπόψη το μέγεθος του εγγράφου.
  9. Το σκορ BM25 είναι μία παραλλαγή του TF-IDF που αναγνωρίζει τις αδυναμίες που αναφέρθηκαν παραπάνω και τις αντιμετωπίζει βασίζόμενο στην επιλογή δύο παραμέτρων. Εισάγει την παράμετρο k1 που είναι υπεύθυνη για τον κορεσμό της συχνότητας εμφάνισης της λέξης, σε περίπτωση που κάποιος όρος εμφανίζεται πολλές φορές στο αντίστοιχο έγγραφο. Πιο συγκεκριμένα, το σκορ αυξάνεται γρήγορα στις αρχικές εμφανίσεις της λέξης στο κείμενο και σταδιακά επηρεάζει λιγότερο την άνοδο του σκορ. Επιπλέον, εισάγει την παράμετρο b η οποία καθορίζει πόσο θα επηρεάζεται το σκορ από το μέγεθος του εγγράφου.
  10. Η αναζήτηση του κατάλληλου μοντέλου reader ήταν δύσκολη καθώς δεν υπάρχουν πολλά μοντέλα ερώτησης απάντησης εκπαιδευμένα στην Ελληνική γλώσσα. Αρχικά μελετήθηκε η συμπεριφορά του πολυγλωσσικού μοντέλου xml-roberta-large που είναι finetuned στο SQuAD2 dataset. Επιπλέον, μελετήθηκε και η συμπεριφορά 5 άλλων μοντέλων τα οποία αποτελούν fine tuned εκδόσεις του Greek-Bert, και αναπτύχθηκαν παράλληλα με τη παρούσα διπλωματική εργασία σε άλλη διπλωματική εργασία συναδέλφου.
  11. Για την αξιολόγηση των τμημάτων του συστήματος χρησιμοποιήθηκαν οι συνήθεις μετρικές αξιολόγησης, precision, recall και accuracy. Αρχικά για τα μοντέλα ταξινόμησης χρησιμοποιήθηκαν οι μετρικές precision και recall, από τις οποίες εξάγεται και το F1 score, που είναι ο αρμονικός μέσος των δύο προηγούμενων. Σε προβλήματα ταξινόμησης όπου οι κλάσεις είναι παραπάνω των δύο, όπως και στη παρούσα περίπτωση όπου το άρθρο μπορεί να ταξινομηθεί σε μία από έξι πιθανές κλάσεις, τότε οι μετρικές που παρουσιάστηκαν παραπάνω εξάγονται για κάθε κλάση ορίζοντας διαδοχικά τη μία κλάση ως θετική και τις άλλες ως αρνητική. Για τα μοντέλα του reader χρησιμοποιήθηκαν οι ίδιες μετρικές ωστόσο με μία παραλλαγή καθώς τώρα η απάντηση δεν είναι θετική η αρνητική κλάση αλλά μία ολόκληρη πρόταση. Το precision, λοιπόν, ορίζεται ως ο λόγος των κοινών λέξεων της προβλεπόμενης απάντησης με τη πραγματική, προς τον συνολικό αριθμό των λέξεων στην προβλεπόμενη απάντηση, ενώ το recall ορίζεται ως ο λόγος των κοινών λέξεων της προβλεπόμενης απάντησης με τη πραγματική, προς τον συνολικό αριθμό των λέξεων στην σωστή απάντηση. Επιπλέον, για την αξιολόγηση των reader χρησιμοποιήθηκε και η μετρική exact match, η οποία όπως δείχνει και το όνομα της αναφέρεται στην απόλυτη ταύτιση της προβλεπόμενης απάντησης με την πραγματική, και είναι μία εξαιρετικά αυστηρή μετρική για τα συστήματα ερώτησης απάντησης.
  12. Παρατηρείται ότι και τα δύο μοντέλα ταξινόμησης, MLP και Greek-BERT, έχουν αρκετά καλά αποτελέσματα για όλες τις κλάσεις ταξινόμηση. Ωστόσο, το fine-tuning του greek-bert χρειάζεται αρκετά περισσότερο χρόνο για την εκπαίδευση του σε σχέση με το MLP. Παρόλα αυτά, το τελικό μοντέλο που επιλέγεται είναι αυτό του greek BERT διότι η τεχνολογία του με τα transformers επιτρέπει και τη νοηματική ”κατανόηση” της εισόδου σε αντίθεση με το MLP το οποίο χρησιμοποιεί τη μέθοδο TF-IDF. Για την ταξινόμηση των ερωτήσεων κατά την είσοδο τους στο QA σύστημα, εξαιτίας της έλλειψης συνόλου δεδομένων ερωτήσεων, δοκιμάστηκε η χρήση του ίδιου μοντέλου που χρησιμοποιήθηκε για την ταξινόμηση των άρθρων. Η κύρια ιδέα είναι πως το περιεχόμενο των ερωτήσεων θα είναι παρόμοιο με αυτό των άρθρων, επομένως το μοντέλο θα είναι σε θέση να τις ταξινομήσει σωστά. Ωστόσο, αυτό δεν ισχύει για όλες τις κατηγορίες. Για το λόγο αυτό στη τελική υλοποίηση ο ταξινομητής ερωτήσεων παραλείπεται από το συνολικό σύστημα και η ερώτηση περνάει κατευθείαν στον Retriever
  13. Για την αξιολόγηση των μοντέλων των Retriever χρησιμοποιήθηκε η ακρίβεια επιστροφής σωστού εγγράφου σε ένα σύνολο από έγγραφα. Στο διάγραμμα παρουσιάζεται η ακρίβεια του κάθε αλγορίθμου να βρήκε το σωστό έγγραφο στο πρώτο άρθρο, στο πρώτο ή στο δεύτερο, στο πρώτο ή στο δεύτερο ή στο τρίτο και ούτο καθεξης μεχρι και τα δέκα έγγραφα. Παρατηρούμε επίσης ότι ο αλγόριθμος BM25 παρουσιάζει καλύτερα αποτελέσματα από το πρώτο κιόλας έγγραφο και για το λόγω αυτό και επιλέχθηκε για το τελικό σύστημα. Επιπλέον, ο αριθμός των εγγράφων που θα επιστρέφει ο Retriever είναι 3 καθώς μετά το τρίτο έγγραφο η απόδοση του αλγορίθμου δεν παρουσιάζει σημαντική βελτίωση.
  14. Το μοντέλο με τη μεγαλύτερη απόδοση είναι το xlm-roberta-large-squad2 από την deepset το οποίο είναι εκπαιδευμένο στο SQuAD2 και χρησιμοποιείται με τη μέθοδο zero-shot, καθώς δεν είναι εκπαιδευμένο στα Ελληνικά. Επιπλέον, τα δύο ελληνικά μοντέλα squad_bert_el και qacombination_bert_el έχουν παρόμοια απόδοση αλλά το πρώτο είναι αυτό που επιλέχθηκε καθώς η ακρίβεια του μοντέλου είναι κύριας σημασίας για το σύστημα.
  15. Η εκπαίδευση του ψηφιακού βοηθού με το RASA framework μπορεί να πραγματοποιηθεί ακόμη και με περιορισμένο σύνολο δεδομένων, και στη συνέχεια μπορεί να πραγματοποιείται επανεκπαίδευση του όσο το σύνολο δεδομένων μεγαλώνει. Το Greek BERT προτιμήθηκε για την ταξινόμηση των άρθρων, έναντι του MLP, κυρίως γιατί επιτυγχάνει νοηματική σύνδεση της κατηγορίας με το άρθρο, σε αντίθεση με το MLP του οποίου τα χαρακτηριστικά εξάγονται με τη μέθοδο TF-IDF. Επιπλέον, εξαιτίας του συνδυασμού πολλών τμημάτων για την υλοποίηση του συνολικού συστήματος, η συνολική απόδοση επηρεάζεται από το τμήμα με τη χαμηλότερη απόδοση. Ταυτόχρονα το πολυ γλωσσικό μοντέλο που χρησιμοποιήθηκε είχε ικανοποιητική απόδοση στα Ελληνικά και για αυτό και χρησιμοποιήθηκε.
  16. Αρχικά ως πρώτη μελλοντική επέκταση μπορεί να μελετηθεί η υλοποίηση του συστήματος παροχής άρθρων και η έκθεση του συστήματος σε δοκιμαστικό κοινό. Παράλληλα, μέσω συλλογής ερωτήσεων από κοινό, θα μπορούσε να γίνει fine tuning του Greek BERT για την υλοποίηση ενός ταξινομητή ερωτημάτων. Το συνολικό σύστημα μπορεί να ενσωματωθεί σε γνωστές εφαρμογές συνομιλίας όπως το messenger, mattermost, discord, slack και άλλα. Τέλος, εξαιτίας της αρθρωτής δομής του συστήματος, κάθε ένα από τα τμήματα του μπορεί και θα πρέπει να βελτιώνεται συστηματικά καθώς με τη πάροδο του χρόνου θα αλλάζει η συμπεριφορά των χρηστών του συστήματος και έτσι θα πρέπει να αλλάζει και το ίδιο.
  17. Video presentation of RASA-X
  18. Στο σχήμα παρουσιάζονται τα βήματα επεξεργασίας της εισόδου του χρήστη, Αρχικά, η είσοδος παραδίδεται στο Duckling, το οποίο είναι υπεύθυνο για την εξαγωγή της οντότητας του χρόνου στην είσοδο του χρήστη, σε περίπτωση που ο χρήστης επιθυμεί απάντηση από μία συγκεκριμένη ημερομηνία και έπειτα. Στη συνέχεια η είσοδος περνά από τον whitespacetokenizer ο οποίος δημιουργεί μία διανυσματική αναπαράσταση της εισόδου του χρήστη, η παραγωγή token ανά λέξη, δηλαδή κάθε λέξη που χωρίζεται με κενό χαρακτήρα από τις υπόλοιπες αποτελεί ένα token. Από τα tokens που έχουν παραχθεί από τον Tokenizer ο CountVectorsFeaturizer παράγει χαρακτηριστικά (features) για την ταξινόμηση της επιθυμίας του χρήστη και την επιλογή της απάντησης του ψηφιακού βοηθού. Τα features παράγονται με την μέθοδο bag-of-words. Ο Dual Intent and Entity Transformer Classifier (DIETClassifier) χρησιμοποιείται για την εξαγωγή της επιθυμίας του χρήστη αλλά και την αναγνώριση οντοτήτων. Η αρχιτεκτονική του είναι βασισμένη στα transformers, και ουσιαστικά ταξινομεί την επιθυμία του χρήστη. Σε αυτό το στάδιο αποδίδεται ένα σκορ σε κάθε μία από της υποστηριζόμενες επιθυμίες του συστήματος. Σε περίπτωση που το σκορ είναι πιο χαμηλά από κάποιο κατώφλι (το κατώφλι τίθεται ως παράμετρος του συστήματος) ή η διαφορά των σκορ των δύο πιο πιθανών κατηγοριών είναι μικρότερη από ένα δεύτερο κατώφλι (και αυτό τίθεται ως παράμετρος του συστήματος) τότε ο fallback classifier θέτει την ταξινόμηση της επιθυμίας σε μία ειδική κατηγορία ταξινόμησης που σηματοδοτεί την αβεβαιότητα της πρόβλεψης. Στη περίπτωση αυτή, ο ψηφιακός βοηθός ζητά από το χρήστη να αναδιατυπώσει για την εκ νέου ταξινόμηση της επιθυμίας του. Η πληροφορία της ταξινόμησης αποστέλλεται μέσω REST API στον Action Server ο οποίος εκτελεί την αντίστοιχη λειτουργία στην επιθυμία του χρήστη.