SlideShare ist ein Scribd-Unternehmen logo
1 von 27
Αλγόριθμος Ιεραρχικής Ομαδοποίησης
Πρωτεϊνικών Ακολουθιών Ίδιου Μήκους
Τσαρούχης Σωτήριος – Φίλιππος
ΑΕΜ: 7999
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ
ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ
ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ
ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ
ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ ΥΠΟΛΟΓΙΣΜΩΝ
Επιβλέποντες
Καθηγητής Περικλής, Α. Μήτκας
Μεταδιδακτορικός Ερευνητής, Φώτης Ε. Ψωμόπουλος
Υποψήφια Διδάκτορας, Μαρία Κωτούζα
Θεσσαλονίκη, Ιούλιος 2018
2
Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018
1. Εισαγωγή
2. Μεθοδολογία Διπλωματικής
3. Αλγόριθμος Ιεραρχικής Ομαδοποίησης
4. Πειραματικά Αποτελέσματα
5. Παρουσίαση Shiny Εφαρμογής (Demo)
6. Συμπεράσματα και Μελλοντικές Επεκτάσεις
3
Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018
1. Εισαγωγή
2. Μεθοδολογία Διπλωματικής
3. Αλγόριθμος Ιεραρχικής Ομαδοποίησης
4. Πειραματικά Αποτελέσματα
5. Παρουσίαση Shiny Εφαρμογής (Demo)
6. Συμπεράσματα και Μελλοντικές Επεκτάσεις
4
Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018
Βιοπληροφορική
Στατιστική
Πληροφορική
Βιολογία
• Εξόρυξη Δεδομένων (Data
Mining)
• Ομαδοποίηση (Clustering)
Πληροφορική
• Πρωτεΐνες
• Αμινοξέα
Βιολογία
5
Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018
Ιεραρχική ομαδοποίηση μεγάλου αριθμού αμινοξικών ακολουθιών ίδιου
μήκους σε εύλογο χρονικό διάστημα
• Υλοποίηση του αλγορίθμου ομαδοποίησης για την ιεραρχική
ομαδοποίηση πρωτεϊνών ίδιου μήκους
• Βελτιστοποίηση αλγορίθμου – ελαχιστοποίηση χρόνου
• Οπτικοποίηση αποτελεσμάτων
6
Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018
1. Εισαγωγή
2. Μεθοδολογία Διπλωματικής
3. Αλγόριθμος Ιεραρχικής Ομαδοποίησης
4. Πειραματικά Αποτελέσματα
5. Παρουσίαση Shiny Εφαρμογής (Demo)
6. Συμπεράσματα και Μελλοντικές Επεκτάσεις
7
Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018
Χρήση πραγματικού σετ δεδομένων
Δημιουργία του αλγορίθμου ομαδοποίησης
Δημιουργία των συναρτήσεων οπτικοποίησης
Δημιουργία της Shiny εφαρμογής
Αξιολόγηση αποτελεσμάτων ομαδοποίησης
Βελτιστοποίηση Κώδικα
Χρήση τεχνητών σετ δεδομένων
8
Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018
1. Εισαγωγή
2. Μεθοδολογία Διπλωματικής
3. Αλγόριθμος Ιεραρχικής Ομαδοποίησης
4. Πειραματικά Αποτελέσματα
5. Παρουσίαση Shiny Εφαρμογής (Demo)
6. Συμπεράσματα και Μελλοντικές Επεκτάσεις
9
Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018
Iεραρχική ομαδοποίηση
Αποτέλεσμα: Δυαδικό Δένδρο
Επιμέρους συναρτήσεις:
10
Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018
Επιλογές χρήστη για αρχικοποίηση:
1η επιλογή
2η επιλογή
3η επιλογή
4η επιλογή
Μεμονωμένα γράμματα
(Identity)
Ομάδες ομοιότητας
(Similarity)
Δεν λαμβάνονται υπ’
όψιν οι x πρώτες στήλες
Δεν λαμβάνονται υπ’ όψιν
οι y1 στήλες από το
τέλος
Δεν λαμβάνονται
υπ’ όψιν οι y2
στήλες από το τέλος
για γονίδια τύπου
“J6”
11
Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018
Υπολογίζονται:
• Πίνακας στοιχείων μεμονωμένων γραμμάτων (CM) [20 x L]
• Πίνακας συχνοτήτων μεμονωμένων γραμμάτων (FM) [21 x L]
• Πίνακας στοιχείων ομάδων ομοιότητας (CSM) [11 x L]
• Πίνακας συχνοτήτων ομάδων ομοιότητας (FSM) [12 x L]
𝑭𝑴 = 𝑪𝑴 𝑵
𝑭𝑺𝑴 = 𝑪𝑺𝑴 𝑵
12
Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018
Υπολογίζονται:
• Ταυτότητα μεμονωμένων γραμμάτων (Identity)
• Ταυτότητα ομάδων ομοιότητας (Similarity)
𝑖𝑑 = (
𝑗=1
𝐿
FThr[, j]) /𝐿)
𝐹𝑇ℎ𝑟 , 𝑗 =
1, 𝜀𝛼𝜈 max(𝐹𝑀 , 𝑗 ) = 100
0, 𝜀𝛼𝜈 𝑚𝑎𝑥(𝐹𝑀 , 𝑗 ) < 100
, 𝑗 = 1, … , 𝐿
13
Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018
Επιλογή κατάλληλου κελιού:
Identity
1. Μέγιστη τιμή πίνακα FM
2. Ελάχιστη τιμή εντροπίας
3. Μέγιστη τιμή πίνακα FSM
4. Ελάχιστη τιμή εντροπίας
5. Πρώτο στοιχείο
Similarity
1. Μέγιστη τιμή πίνακα FSM
2. Ελάχιστη τιμή εντροπίας
3. Πρώτο στοιχείο
14
Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018
15
Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018
16
Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018
1. Εισαγωγή
2. Μεθοδολογία Διπλωματικής
3. Αλγόριθμος Ιεραρχικής Ομαδοποίησης
4. Πειραματικά Αποτελέσματα
5. Παρουσίαση Shiny Εφαρμογής (Demo)
6. Συμπεράσματα και Μελλοντικές Επεκτάσεις
17
Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018
• Ακολουθίες μήκους 20 αμινοξέων
• Ποικιλία μεγεθών για τα σετ δεδομένων
(100 έως 500,000 ακολουθίες)
• Τυχαία παραγόμενες
Βελτίωση του χρόνου
εκτέλεσης
• Ακολουθίες μήκους 20 αμινοξέων
• 123 ακολουθίες αμινοξέων κλωνοτυπικών
ανοσοσφαιρινών (IG) ιδίου γονιδίου
(IGHV4-34)
• Από ασθενείς με χρόνια λεμφοκυτταρική
λευχαιμία (CLL)
Βιολογική αξιολόγηση
18
Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018
Σετ δεδομένων που αποτελούνται από 100 – 500 – 1,000 – 5,000
ακολουθίες
Προσέγγιση
Χρόνος (sec)
για 100
Ακολουθίες
Χρόνος (sec) για
500 Ακολουθίες
Χρόνος (sec)
για 1,000
Ακολουθίες
Χρόνος (sec) για
5,000 Ακολουθίες
(Αρχική)
Προσέγγιση 1
10.931
node stack
overflow
node stack
overflow
node stack
overflow
Προσέγγιση 2 10.809 69.582
node stack
overflow
node stack
overflow
Προσέγγιση 3 6.218 28.575
node stack
overflow
node stack
overflow
Προσέγγιση 4 5.965 26.853 54.979 337.496
Προσέγγιση 5 5.768 26.842 54.37 337.218
(Τελική)
Προσέγγιση 6
5.177 23.658 47.89 263.14
19
Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018
Σετ δεδομένων που αποτελούνται από (100 – 250 – 500 – 1,000 – 2,500 –
5,000 – 10,000 – 25,000 – 50,000 – 100,000 – 250,000 – 500,000
ακολουθίες)
Αριθμός
Ακολουθιών
Εισόδου
Κλήσεις
Συναρτήσεων
Χρόνος (sec)
Χρόνος
(min)
Χρόνος
(hours)
Χρόνος
(days)
500,000 877,304 317,229.5 5,287.158 88.1193 3.6716
250,000 438,547 88,114.27 1,468.571 24.4762 1.0198
100,000 175,997 17,039.03 283.9838 4.7331 0.1972
50,000 88,244 5,025.016 83.7503 1.3958 0.0582
25,000 43,967 1,808.542 30.1424 0.5023 0.0209
10,000 17,597 577.927 9.6321 0.1605 0.0066
5,000 8,816 263.14 4.3857 0.0731 0.003
2,500 4,406 123.331 2.0555 0.0343 0.0014
1,000 1,757 47.89 0.7981 0.0133 0.0006
500 872 23.658 0.3943 0.0066 0.0003
250 440 12.141 0.2024 0.0033 0.0001
100 179 5.177 0.0863 0.0014 0.0000
20
Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018
123 ακολουθίες αμινοξέων κλωνοτυπικών ανοσοσφαιρινών (IG) από ασθενείς με
χρόνια λεμφοκυτταρική λευχαιμία (CLL). Όλες οι ακολουθίες περιέχουν το γονίδιο
IGHV4-34 (ακολουθίες με μήκος 20 αμινοξέων) με τις
• 111 (90.2%) να χωρίζονται σε 5 βιολογικές ομάδες (subsets)
#4 → 101 ακολουθίες, #207 → 2 ακολουθίες, #4-34/20-1 → 2 ακολουθίες,
#4-34-16 → 4 ακολουθίες, #4-34-18 → 2 ακολουθίες
• 12 ακολουθίες που δεν ανοίκουν σε κάποιο subset
Δημιουργήθηκαν: 20 επίπεδα και 166 clusters
Αξιολογώντας την ομαδοποίηση:
• #4 → (95 101 = 94%) cluster 7 - επίπεδο 3 - Identity 15% - Similarity 25%
• #207→ (2 2 = 100%) cluster 37 - επίπεδο 6 - Identity 85% - Similarity 95%
• #4-34/20-1 → (2 2 = 100%) cluster 57 - επίπεδο 9 - Identity 80% - Similarity
95%
• #4-34-16 → (3/4 = 75%) cluster 21 - επίπεδο 4 - Identity 40% - Similarity 45%
Level
Average Identity
Value
Identity Standard
Deviation
Average Similarity
Value
Similarity Standard
Deviation
level.0 0 NA 0 ΝΑ
level.1 5 0 7.5 3.5355
level.2 38.75 41.7083 41.25 39.66
level.3 43.5714 39.1274 46.4286 37.3847
level.4 47.5 33.6763 50.8333 32.8795
level.5 58.5294 33.1552 62.9412 31.0271
level.6 65.9523 33.4895 70 31.1448
level.7 59.5833 32.4009 73.3333 30.1326
level.8 72.4074 30.6773 75.9259 28.5898
level.9 74.1935 29.5831 78.7097 27.3242
level.10 75.8824 28.6163 79.8529 26.5286
level.11 77.2368 27.5018 81.0526 25.5258
level.12 79.3023 26.0398 82.5581 24.3578
level.13 81.1458 25.143 84.0625 23.4443
level.14 82.2222 23.7452 85.1852 22.2542
level.15 83.75 22.8225 86.3333 21.3896
level.16 84.697 21.8188 86.9697 20.3976
level.17 85.9028 21.0353 88.1944 19.5244
level.18 87.3718 20.461 89.5513 18.9186
level.19 88.5542 20.069 90.5422 18.4789
level.20 88.75 19.9981 90.7143 18.4022
21
Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018
1. Εισαγωγή
2. Μεθοδολογία Διπλωματικής
3. Αλγόριθμος Ιεραρχικής Ομαδοποίησης
4. Πειραματικά Αποτελέσματα
5. Παρουσίαση Shiny Εφαρμογής (Demo)
6. Συμπεράσματα και Μελλοντικές Επεκτάσεις
22
Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018
23
Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018
1. Εισαγωγή
2. Μεθοδολογία Διπλωματικής
3. Αλγόριθμος Ιεραρχικής Ομαδοποίησης
4. Πειραματικά Αποτελέσματα
5. Παρουσίαση Shiny Εφαρμογής (Demo)
6. Συμπεράσματα και Μελλοντικές Επεκτάσεις
24
Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018
• Παραλληλοποίηση του αλγορίθμου
• Αποθήκευση των εκτελέσεων
• Μια νέα τεχνική ιεραρχικής ομαδοποίησης πρωτεϊνικών ακολουθιών
ίδιου μήκους με υποσχόμενα αποτελέσματα
• Δυαδικό δένδρο
• Χρήση ταυτότητας μεμονωμένων γραμμάτων και ταυτότητας ομάδων
ομοιότητας
• Οπτικοποίηση των αποτελεσμάτων
• Επιθυμητή ομαδοποίηση ακολουθιών μεγάλου μήκους σε
ικανοποιητικό χρονικό διάστημα
25
Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018
• Αποθετήριο (repository) διαδικτυακής εφαρμογής Shiny στη διεύθυνση
https://github.com/fpsom/CDR3-HClust/tree/master/CDR3%20Final
• Conference Paper (AIAI 2018)
Tsarouchis S., Kotouza M.T., Psomopoulos F.E., Mitkas P.A. (2018) A Multi-
metric Algorithm for Hierarchical Clustering of Same-Length Protein
Sequences. In: Iliadis L., Maglogiannis I., Plagianakos V. (eds) Artificial
Intelligence Applications and Innovations. AIAI 2018. IFIP Advances in
Information and Communication Technology, vol 520. Springer, Cham
26
Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018
Θα ήθελα να ευχαριστήσω θερμά τον καθηγητή κ.
Περικλή Μήτκα, τον μεταδιδακτορικό ερευνητή κ.
Φώτη Ψωμόπουλο καθώς και την υποψήφια
διδάκτορα Μαρία Κωτούζα για την πολύτιμη βοήθειά
και καθοδήγηση τους.
27
Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018

Weitere ähnliche Inhalte

Mehr von ISSEL

Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...ISSEL
 
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...ISSEL
 
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...ISSEL
 
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας ΙσχυρισμώνΔημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας ΙσχυρισμώνISSEL
 
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµαταΕξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµαταISSEL
 
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...ISSEL
 
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...ISSEL
 
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...ISSEL
 
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικούΕξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικούISSEL
 
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία ΕφαρµογήςΑνάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία ΕφαρµογήςISSEL
 
Camera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environmentsCamera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environmentsISSEL
 
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...ISSEL
 
Design and implementation of an automation mechanism to automatically develop...
Design and implementation of an automation mechanism to automatically develop...Design and implementation of an automation mechanism to automatically develop...
Design and implementation of an automation mechanism to automatically develop...ISSEL
 
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...ISSEL
 
Static Analysis of Python code and Identification of Potential Security Vulne...
Static Analysis of Python code and Identification of Potential Security Vulne...Static Analysis of Python code and Identification of Potential Security Vulne...
Static Analysis of Python code and Identification of Potential Security Vulne...ISSEL
 
Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...
Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...
Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...ISSEL
 
Design and Development of an Authorization and Access Control Mechanism for C...
Design and Development of an Authorization and Access Control Mechanism for C...Design and Development of an Authorization and Access Control Mechanism for C...
Design and Development of an Authorization and Access Control Mechanism for C...ISSEL
 
Σχεδίαση και Ανάπτυξη Μηχανισμού Εξουσιοδότησης και Ελέγχου Πρόσβασης σε Συνο...
Σχεδίαση και Ανάπτυξη Μηχανισμού Εξουσιοδότησης και Ελέγχου Πρόσβασης σε Συνο...Σχεδίαση και Ανάπτυξη Μηχανισμού Εξουσιοδότησης και Ελέγχου Πρόσβασης σε Συνο...
Σχεδίαση και Ανάπτυξη Μηχανισμού Εξουσιοδότησης και Ελέγχου Πρόσβασης σε Συνο...ISSEL
 
Analysis and profiling of developer profiles using data mining techniques fro...
Analysis and profiling of developer profiles using data mining techniques fro...Analysis and profiling of developer profiles using data mining techniques fro...
Analysis and profiling of developer profiles using data mining techniques fro...ISSEL
 
Ανάλυση και μοντελοποίηση προφίλ προγραμματιστών μέσω τεχνικών εξόρυξης γνώση...
Ανάλυση και μοντελοποίηση προφίλ προγραμματιστών μέσω τεχνικών εξόρυξης γνώση...Ανάλυση και μοντελοποίηση προφίλ προγραμματιστών μέσω τεχνικών εξόρυξης γνώση...
Ανάλυση και μοντελοποίηση προφίλ προγραμματιστών μέσω τεχνικών εξόρυξης γνώση...ISSEL
 

Mehr von ISSEL (20)

Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
 
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
 
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
 
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας ΙσχυρισμώνΔημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
 
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµαταΕξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
 
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...
 
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
 
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
 
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικούΕξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
 
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία ΕφαρµογήςΑνάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
 
Camera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environmentsCamera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environments
 
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
 
Design and implementation of an automation mechanism to automatically develop...
Design and implementation of an automation mechanism to automatically develop...Design and implementation of an automation mechanism to automatically develop...
Design and implementation of an automation mechanism to automatically develop...
 
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...
 
Static Analysis of Python code and Identification of Potential Security Vulne...
Static Analysis of Python code and Identification of Potential Security Vulne...Static Analysis of Python code and Identification of Potential Security Vulne...
Static Analysis of Python code and Identification of Potential Security Vulne...
 
Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...
Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...
Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...
 
Design and Development of an Authorization and Access Control Mechanism for C...
Design and Development of an Authorization and Access Control Mechanism for C...Design and Development of an Authorization and Access Control Mechanism for C...
Design and Development of an Authorization and Access Control Mechanism for C...
 
Σχεδίαση και Ανάπτυξη Μηχανισμού Εξουσιοδότησης και Ελέγχου Πρόσβασης σε Συνο...
Σχεδίαση και Ανάπτυξη Μηχανισμού Εξουσιοδότησης και Ελέγχου Πρόσβασης σε Συνο...Σχεδίαση και Ανάπτυξη Μηχανισμού Εξουσιοδότησης και Ελέγχου Πρόσβασης σε Συνο...
Σχεδίαση και Ανάπτυξη Μηχανισμού Εξουσιοδότησης και Ελέγχου Πρόσβασης σε Συνο...
 
Analysis and profiling of developer profiles using data mining techniques fro...
Analysis and profiling of developer profiles using data mining techniques fro...Analysis and profiling of developer profiles using data mining techniques fro...
Analysis and profiling of developer profiles using data mining techniques fro...
 
Ανάλυση και μοντελοποίηση προφίλ προγραμματιστών μέσω τεχνικών εξόρυξης γνώση...
Ανάλυση και μοντελοποίηση προφίλ προγραμματιστών μέσω τεχνικών εξόρυξης γνώση...Ανάλυση και μοντελοποίηση προφίλ προγραμματιστών μέσω τεχνικών εξόρυξης γνώση...
Ανάλυση και μοντελοποίηση προφίλ προγραμματιστών μέσω τεχνικών εξόρυξης γνώση...
 

Sotirios - Filippos Tsarouchis Diploma Thesis Presentation

  • 1. Αλγόριθμος Ιεραρχικής Ομαδοποίησης Πρωτεϊνικών Ακολουθιών Ίδιου Μήκους Τσαρούχης Σωτήριος – Φίλιππος ΑΕΜ: 7999 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ ΥΠΟΛΟΓΙΣΜΩΝ Επιβλέποντες Καθηγητής Περικλής, Α. Μήτκας Μεταδιδακτορικός Ερευνητής, Φώτης Ε. Ψωμόπουλος Υποψήφια Διδάκτορας, Μαρία Κωτούζα Θεσσαλονίκη, Ιούλιος 2018
  • 2. 2 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 1. Εισαγωγή 2. Μεθοδολογία Διπλωματικής 3. Αλγόριθμος Ιεραρχικής Ομαδοποίησης 4. Πειραματικά Αποτελέσματα 5. Παρουσίαση Shiny Εφαρμογής (Demo) 6. Συμπεράσματα και Μελλοντικές Επεκτάσεις
  • 3. 3 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 1. Εισαγωγή 2. Μεθοδολογία Διπλωματικής 3. Αλγόριθμος Ιεραρχικής Ομαδοποίησης 4. Πειραματικά Αποτελέσματα 5. Παρουσίαση Shiny Εφαρμογής (Demo) 6. Συμπεράσματα και Μελλοντικές Επεκτάσεις
  • 4. 4 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 Βιοπληροφορική Στατιστική Πληροφορική Βιολογία • Εξόρυξη Δεδομένων (Data Mining) • Ομαδοποίηση (Clustering) Πληροφορική • Πρωτεΐνες • Αμινοξέα Βιολογία
  • 5. 5 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 Ιεραρχική ομαδοποίηση μεγάλου αριθμού αμινοξικών ακολουθιών ίδιου μήκους σε εύλογο χρονικό διάστημα • Υλοποίηση του αλγορίθμου ομαδοποίησης για την ιεραρχική ομαδοποίηση πρωτεϊνών ίδιου μήκους • Βελτιστοποίηση αλγορίθμου – ελαχιστοποίηση χρόνου • Οπτικοποίηση αποτελεσμάτων
  • 6. 6 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 1. Εισαγωγή 2. Μεθοδολογία Διπλωματικής 3. Αλγόριθμος Ιεραρχικής Ομαδοποίησης 4. Πειραματικά Αποτελέσματα 5. Παρουσίαση Shiny Εφαρμογής (Demo) 6. Συμπεράσματα και Μελλοντικές Επεκτάσεις
  • 7. 7 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 Χρήση πραγματικού σετ δεδομένων Δημιουργία του αλγορίθμου ομαδοποίησης Δημιουργία των συναρτήσεων οπτικοποίησης Δημιουργία της Shiny εφαρμογής Αξιολόγηση αποτελεσμάτων ομαδοποίησης Βελτιστοποίηση Κώδικα Χρήση τεχνητών σετ δεδομένων
  • 8. 8 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 1. Εισαγωγή 2. Μεθοδολογία Διπλωματικής 3. Αλγόριθμος Ιεραρχικής Ομαδοποίησης 4. Πειραματικά Αποτελέσματα 5. Παρουσίαση Shiny Εφαρμογής (Demo) 6. Συμπεράσματα και Μελλοντικές Επεκτάσεις
  • 9. 9 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 Iεραρχική ομαδοποίηση Αποτέλεσμα: Δυαδικό Δένδρο Επιμέρους συναρτήσεις:
  • 10. 10 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 Επιλογές χρήστη για αρχικοποίηση: 1η επιλογή 2η επιλογή 3η επιλογή 4η επιλογή Μεμονωμένα γράμματα (Identity) Ομάδες ομοιότητας (Similarity) Δεν λαμβάνονται υπ’ όψιν οι x πρώτες στήλες Δεν λαμβάνονται υπ’ όψιν οι y1 στήλες από το τέλος Δεν λαμβάνονται υπ’ όψιν οι y2 στήλες από το τέλος για γονίδια τύπου “J6”
  • 11. 11 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 Υπολογίζονται: • Πίνακας στοιχείων μεμονωμένων γραμμάτων (CM) [20 x L] • Πίνακας συχνοτήτων μεμονωμένων γραμμάτων (FM) [21 x L] • Πίνακας στοιχείων ομάδων ομοιότητας (CSM) [11 x L] • Πίνακας συχνοτήτων ομάδων ομοιότητας (FSM) [12 x L] 𝑭𝑴 = 𝑪𝑴 𝑵 𝑭𝑺𝑴 = 𝑪𝑺𝑴 𝑵
  • 12. 12 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 Υπολογίζονται: • Ταυτότητα μεμονωμένων γραμμάτων (Identity) • Ταυτότητα ομάδων ομοιότητας (Similarity) 𝑖𝑑 = ( 𝑗=1 𝐿 FThr[, j]) /𝐿) 𝐹𝑇ℎ𝑟 , 𝑗 = 1, 𝜀𝛼𝜈 max(𝐹𝑀 , 𝑗 ) = 100 0, 𝜀𝛼𝜈 𝑚𝑎𝑥(𝐹𝑀 , 𝑗 ) < 100 , 𝑗 = 1, … , 𝐿
  • 13. 13 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 Επιλογή κατάλληλου κελιού: Identity 1. Μέγιστη τιμή πίνακα FM 2. Ελάχιστη τιμή εντροπίας 3. Μέγιστη τιμή πίνακα FSM 4. Ελάχιστη τιμή εντροπίας 5. Πρώτο στοιχείο Similarity 1. Μέγιστη τιμή πίνακα FSM 2. Ελάχιστη τιμή εντροπίας 3. Πρώτο στοιχείο
  • 16. 16 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 1. Εισαγωγή 2. Μεθοδολογία Διπλωματικής 3. Αλγόριθμος Ιεραρχικής Ομαδοποίησης 4. Πειραματικά Αποτελέσματα 5. Παρουσίαση Shiny Εφαρμογής (Demo) 6. Συμπεράσματα και Μελλοντικές Επεκτάσεις
  • 17. 17 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 • Ακολουθίες μήκους 20 αμινοξέων • Ποικιλία μεγεθών για τα σετ δεδομένων (100 έως 500,000 ακολουθίες) • Τυχαία παραγόμενες Βελτίωση του χρόνου εκτέλεσης • Ακολουθίες μήκους 20 αμινοξέων • 123 ακολουθίες αμινοξέων κλωνοτυπικών ανοσοσφαιρινών (IG) ιδίου γονιδίου (IGHV4-34) • Από ασθενείς με χρόνια λεμφοκυτταρική λευχαιμία (CLL) Βιολογική αξιολόγηση
  • 18. 18 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 Σετ δεδομένων που αποτελούνται από 100 – 500 – 1,000 – 5,000 ακολουθίες Προσέγγιση Χρόνος (sec) για 100 Ακολουθίες Χρόνος (sec) για 500 Ακολουθίες Χρόνος (sec) για 1,000 Ακολουθίες Χρόνος (sec) για 5,000 Ακολουθίες (Αρχική) Προσέγγιση 1 10.931 node stack overflow node stack overflow node stack overflow Προσέγγιση 2 10.809 69.582 node stack overflow node stack overflow Προσέγγιση 3 6.218 28.575 node stack overflow node stack overflow Προσέγγιση 4 5.965 26.853 54.979 337.496 Προσέγγιση 5 5.768 26.842 54.37 337.218 (Τελική) Προσέγγιση 6 5.177 23.658 47.89 263.14
  • 19. 19 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 Σετ δεδομένων που αποτελούνται από (100 – 250 – 500 – 1,000 – 2,500 – 5,000 – 10,000 – 25,000 – 50,000 – 100,000 – 250,000 – 500,000 ακολουθίες) Αριθμός Ακολουθιών Εισόδου Κλήσεις Συναρτήσεων Χρόνος (sec) Χρόνος (min) Χρόνος (hours) Χρόνος (days) 500,000 877,304 317,229.5 5,287.158 88.1193 3.6716 250,000 438,547 88,114.27 1,468.571 24.4762 1.0198 100,000 175,997 17,039.03 283.9838 4.7331 0.1972 50,000 88,244 5,025.016 83.7503 1.3958 0.0582 25,000 43,967 1,808.542 30.1424 0.5023 0.0209 10,000 17,597 577.927 9.6321 0.1605 0.0066 5,000 8,816 263.14 4.3857 0.0731 0.003 2,500 4,406 123.331 2.0555 0.0343 0.0014 1,000 1,757 47.89 0.7981 0.0133 0.0006 500 872 23.658 0.3943 0.0066 0.0003 250 440 12.141 0.2024 0.0033 0.0001 100 179 5.177 0.0863 0.0014 0.0000
  • 20. 20 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 123 ακολουθίες αμινοξέων κλωνοτυπικών ανοσοσφαιρινών (IG) από ασθενείς με χρόνια λεμφοκυτταρική λευχαιμία (CLL). Όλες οι ακολουθίες περιέχουν το γονίδιο IGHV4-34 (ακολουθίες με μήκος 20 αμινοξέων) με τις • 111 (90.2%) να χωρίζονται σε 5 βιολογικές ομάδες (subsets) #4 → 101 ακολουθίες, #207 → 2 ακολουθίες, #4-34/20-1 → 2 ακολουθίες, #4-34-16 → 4 ακολουθίες, #4-34-18 → 2 ακολουθίες • 12 ακολουθίες που δεν ανοίκουν σε κάποιο subset Δημιουργήθηκαν: 20 επίπεδα και 166 clusters Αξιολογώντας την ομαδοποίηση: • #4 → (95 101 = 94%) cluster 7 - επίπεδο 3 - Identity 15% - Similarity 25% • #207→ (2 2 = 100%) cluster 37 - επίπεδο 6 - Identity 85% - Similarity 95% • #4-34/20-1 → (2 2 = 100%) cluster 57 - επίπεδο 9 - Identity 80% - Similarity 95% • #4-34-16 → (3/4 = 75%) cluster 21 - επίπεδο 4 - Identity 40% - Similarity 45% Level Average Identity Value Identity Standard Deviation Average Similarity Value Similarity Standard Deviation level.0 0 NA 0 ΝΑ level.1 5 0 7.5 3.5355 level.2 38.75 41.7083 41.25 39.66 level.3 43.5714 39.1274 46.4286 37.3847 level.4 47.5 33.6763 50.8333 32.8795 level.5 58.5294 33.1552 62.9412 31.0271 level.6 65.9523 33.4895 70 31.1448 level.7 59.5833 32.4009 73.3333 30.1326 level.8 72.4074 30.6773 75.9259 28.5898 level.9 74.1935 29.5831 78.7097 27.3242 level.10 75.8824 28.6163 79.8529 26.5286 level.11 77.2368 27.5018 81.0526 25.5258 level.12 79.3023 26.0398 82.5581 24.3578 level.13 81.1458 25.143 84.0625 23.4443 level.14 82.2222 23.7452 85.1852 22.2542 level.15 83.75 22.8225 86.3333 21.3896 level.16 84.697 21.8188 86.9697 20.3976 level.17 85.9028 21.0353 88.1944 19.5244 level.18 87.3718 20.461 89.5513 18.9186 level.19 88.5542 20.069 90.5422 18.4789 level.20 88.75 19.9981 90.7143 18.4022
  • 21. 21 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 1. Εισαγωγή 2. Μεθοδολογία Διπλωματικής 3. Αλγόριθμος Ιεραρχικής Ομαδοποίησης 4. Πειραματικά Αποτελέσματα 5. Παρουσίαση Shiny Εφαρμογής (Demo) 6. Συμπεράσματα και Μελλοντικές Επεκτάσεις
  • 23. 23 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 1. Εισαγωγή 2. Μεθοδολογία Διπλωματικής 3. Αλγόριθμος Ιεραρχικής Ομαδοποίησης 4. Πειραματικά Αποτελέσματα 5. Παρουσίαση Shiny Εφαρμογής (Demo) 6. Συμπεράσματα και Μελλοντικές Επεκτάσεις
  • 24. 24 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 • Παραλληλοποίηση του αλγορίθμου • Αποθήκευση των εκτελέσεων • Μια νέα τεχνική ιεραρχικής ομαδοποίησης πρωτεϊνικών ακολουθιών ίδιου μήκους με υποσχόμενα αποτελέσματα • Δυαδικό δένδρο • Χρήση ταυτότητας μεμονωμένων γραμμάτων και ταυτότητας ομάδων ομοιότητας • Οπτικοποίηση των αποτελεσμάτων • Επιθυμητή ομαδοποίηση ακολουθιών μεγάλου μήκους σε ικανοποιητικό χρονικό διάστημα
  • 25. 25 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 • Αποθετήριο (repository) διαδικτυακής εφαρμογής Shiny στη διεύθυνση https://github.com/fpsom/CDR3-HClust/tree/master/CDR3%20Final • Conference Paper (AIAI 2018) Tsarouchis S., Kotouza M.T., Psomopoulos F.E., Mitkas P.A. (2018) A Multi- metric Algorithm for Hierarchical Clustering of Same-Length Protein Sequences. In: Iliadis L., Maglogiannis I., Plagianakos V. (eds) Artificial Intelligence Applications and Innovations. AIAI 2018. IFIP Advances in Information and Communication Technology, vol 520. Springer, Cham
  • 26. 26 Τσαρούχης Σωτήριος Φίλιππος 7999 – Ιούλιος 2018 Θα ήθελα να ευχαριστήσω θερμά τον καθηγητή κ. Περικλή Μήτκα, τον μεταδιδακτορικό ερευνητή κ. Φώτη Ψωμόπουλο καθώς και την υποψήφια διδάκτορα Μαρία Κωτούζα για την πολύτιμη βοήθειά και καθοδήγηση τους.