Analyzing code bugs based on method call graphs

Ανάλυση σφαλμάτων κώδικα με βάση τον
γράφο κλήσεων συναρτήσεων
ΚΩΝΣΤΑΝΤΙΝΟΣ ΒΕΡΓΟΠΟΥΛΟΣ
TΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ
ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ & ΥΠΟΛΟΓΙΣΤΩΝ
15/11/2021

ΠΕΡΙΕΧΟΜΕΝΑ
ΕΙΣΑΓΩΓΗ
01
02
03
04
05
ΣΥΣΤΗΜΑ
ΔΕΔΟΜΕΝΑ
ΠΕΙΡΑΜΑΤΑ
ΣΥΜΠΕΡΑΣΜΑΤΑ

Σφάλματα Λογισμικού
(“bugs”)
• Σφάλματα λογισμικού ονομάζονται σφάλματα, ελαττώματα ή λάθη που οδηγούν
το λογισμικό να παράγει εσφαλμένο ή απροσδόκητο αποτέλεσμα.
• Σφάλματα system crash
• Συνιστώσα της βιωσιμότητας των έργων λογισμικού

70 σφάλματα ανα 1000
γραμμές κώδικα
15 σφάλματα ανα 1000
γραμμές κώδικα
φτάνουν στους πελάτες
Στατιστικά στοιχεία σφαλμάτων
75% του χρόνου των
προγραμματιστών
αφιερώνεται στην
επίλυση σφαλμάτων
30 φορές τον χρόνο για την
συγγραφή μιας γραμμής
κώδικας απαιτεί η επίλυση
ενός σφάλματος
$113B ετησίως
ξοδεύονται για την
αντιμετώπιση
σφαλμάτων σε έργα
λογισμικού στην
Αμερική

Καταγραφή σφαλμάτων
3. Stack trace
2. Description
1. Title
4. labels

Διαδικασία επίλυσης σφαλμάτων

Το πρόβλημα της
κατηγοριοποίησης σφαλμάτων

Στόχοι
Η ανάπτυξη συστήματος κατηγοριοποίησης
Η μελέτη :
• των επιδόσεων των stack traces σε προβλήματα ανάλυσης σφαλμάτων
• της σημασίας των stack traces και της αναγκαιότητας της συμπερίληψης τους στις
αναφορές σφαλμάτων

Περιγραφή συστήματος
1. Υποσύστημα εξόρυξης δεδομένων
2. Υποσύστημα αναπαράστασης λέξεων
3. Υποσύστημα αναπαράστασης συναρτήσεων
4. Υποσύστημα αναπαράστασης σφαλμάτων
5. Υποσύστημα κατηγοριοποίησης

Υποσύστημα εξόρυξης δεδομένων
• Βιβλιοθήκες GitHub REST API
• Σφάλμα = {τίτλος, ετικέτες, προγραμματιστής, περιγραφή, stack trace}
• Για τον σωστό διαχωρισμό των πληροφορίων χρησιμοποιούνται html
tags όπως <code> ή λέξεις κλειδιά όπως java.exception

Υποσύστημα αναπαράστασης λέξεων
• Δημιουργία λεξιλογίου με βάση την συχνότητα εμφάνισης
• Χρήση της τεχνική skip-gram
• Νευρωνικό δίκτυο
• Χρήση τεχνικής Negative Sampling
• Χρήση της μετρικής AUC για αξιολόγηση

Υποσύστημα αναπαράστασης συναρτήσεων
• Δημιουργία του συνολικού γράφου κλήσεων συναρτήσεων
• Δημιουργία λεξιλογίου με βάση την συχνότητα εμφάνισης
• Χρήση της τεχνική skip-gram
• Νευρωνικό δίκτυο
• Εκμάθηση αναπαραστάσεων μέσω τυχαίων περιπάτων
• Χρήση της μετρικής AUC για αξιολόγηση

Υποσύστημα αναπαράστασης σφαλμάτων
• flags use_words, use_stacks για την αναπαράσταση των σφαλμάτων
• Χρήση του απλού μέσου όρου για την αναπαράσταση των σφαλμάτων
𝑴 =
1
𝑁
w∈Bug∩Vocab
𝐱w
• Στην συνδιαστική μέθοδο το διάνυσμα σφάλματος είναι η σειριακή ένωση
των μέσων όρων BUG = 𝐌words, 𝐌funcs

Υποσύστημα κατηγοριοποίησης σφαλμάτων
• Πρόβλημα δυαδικής ταξινόμησης
• Μετρικές αξιολόγησης Accuracy,
Precision, Geometric Mean & AUC
• Boolean flags use_words, use_stacks
Μοντέλα μηχανικής
• Τυχαίος ταξινομητής: Ως μέτρο σύγκρισης
• Logistic Regression: Φθηνός και αποτελεσματικός αλγόριθμος
ταξινόμησης
• VoteNN+P: Αρχιτεκτονική 5 νευρωνικών δικτύων με ψηφοφορία
& patience remaining για early stopping
Εναλλακτικές αρχιτεκτονικές
• DropNN+P: Με dropout επίπεδο και patience remaining για early
stopping

Έργα ανοικτού λογισμικού
Περιγραφές Γράφοι Λέξεις Μέθοδοι
C:geo 6244 550 12769 1417
Elastic Search 9885 3200 39065 5994
Spring Boot 14367 1711 29090 7031

Ετικέτες προς ταξινόμησης
Έργο
Σετ
Εκπαίδευσης
Σετ
Αξιολόγησης
Σετ
Ελέγχου
Bug C:geo 294 84 42
Google Play C:geo 120 34 20
High Prio C:geo 68 10 10
>bug Elastic search 375 107 55
T:Distributed Elastic search 243 69 34
Snap/Dist Elastic search 208 60 30
type: bug Spring boot 265 76 38
type: invalid Spring boot 535 153 76
External –project Spring boot 215 62 30

Διεξαγωγή πειραμάτων
Εκμάθηση αποτελεσματικών διανυσματικών αναπαραστάσεων.
Διεξαγωγή πειραμάτων κατηγοριοποίησης:
• Χρήση μόνο των περιγραφών
• Χρήση μόνο των συναρτήσεων
• Χρήση των συνδυασμό τους

Πειράματα εκμάθησης διανυσματικών
αναπαραστάσεων λέξεων
C:geo ElasticSearch SpringBoot
min_occurrence 2 4 3
skip_window 4 2 2
embedding_dim 64 64 64
num_sampled 64 32 32
learning_rate 0.1 0.1 0.1
valid WordAUC 0.85 0.80 0.77
test WordAUC 0.82 0.77 0.75

Πειράματα εκμάθησης διανυσματικών
αναπαραστάσεων συναρτήσεων
C:geo ElasticSearch SpringBoot
min_occurrence 2 2 2
skip_window 2 2 2
embedding_dim 8 8 8
num_sampled 32 32 32
learning_rate 0.01 0.1 0.1
valid FuncAUC 0.91 0.90 0.90
test FuncAUC 0.89 0.86 0.88

Κατηγοριοποίηση στο έργο C:geo

Κατηγοριοποίηση στο έργο Elastic Search

Κατηγοριοποίηση στο έργο spring boot

Συμπεράσματα
1. Οι περιγραφές αποδεικνύονται πιο αποδοτικές σε προβλήματα ανάλυσης σφαλμάτων από
τους γράφους κλήσεων συναρτήσεων
2. Ο συνδιασμός γράφων κλήσεων συναρτήσεων και περιγραφών πάντα βελτιώνει τα
αποτελέσματα ~6% κατά μέσο όρο
3. Υπάρχουν στατιστικά σημαντικές διαφορές στις μέσες τιμές με confidence level 99%.
4. Είναι σημαντικό να μην παραλείπεται η επισύναψη των γράφων κλήσεων συναρτήσεων.

ΕΥΧΑΡΙΣΤΩ ΠΟΛΥ
Ερωτήσεις;

Analyzing code bugs based on method call graphs

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (14)

Ähnlich wie Analyzing code bugs based on method call graphs

Ähnlich wie Analyzing code bugs based on method call graphs (20)

Mehr von ISSEL

Mehr von ISSEL (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (20)

Analyzing code bugs based on method call graphs