SlideShare ist ein Scribd-Unternehmen logo
1 von 22
http://www.auth.gr/ee
Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Πολυτεχνικής Σχολής
Εργαστήριο Επεξεργασίας Πληροφορίας και Υπολογισμών
ΓΟΝΙΔΙΩΜΑΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ
ΜΕ ΜΕΘΟΔΟΥΣ YΠΟΛΟΓΙΣΤΙΚΗΣ ΝΟΗΜΟΣΥΝΗΣ
ΚΑΙ ΕΦΑΡΜΟΓΕΣ ΣΤΟ R
Επιβλέπων Καθηγητής μου: Συμεωνίδης Ανδρέας
Αλαουί Τζαμαλί Ζακία
Ακαδημαϊκό Έτος: 2015
 Παραγωγή μεγάλων ποσοτήτων γενετικών δεδομένων στην
Μοριακή Βιολογία.
 Ανάλυση της γενετικής πληροφορίας με μεθόδους
Βιοπληροφορικής.
 Μελέτη και ανάλυση της γονιδιακής έκφρασης με μία
πειραματική τεχνική που έχει ξεχωρίσει ιδιαίτερα τα
τελευταία χρόνια : οι μικροσυστοιχίες (τσιπ DNA).
 Κοινή χρήση των μικροσυστοιχίων είναι να καθοριστεί ποια
γονίδια ενεργοποιούνται και ποια γονίδια καταστέλλονται
όταν συγκρίνονται δύο πληθυσμοί κυττάρων.
Πειραματικές Τεχνικές της Μοριακής Βιολογίας
ΔεδομένωνΟμαδοποιήσηΣυμπέρασμαΕισαγωγή
1/21
ΔεδομένωνΟμαδοποιήσηΣυμπέρασμα
Ερευνητικό Ενδιαφέρον των πειραμάτων
Οι διάφορες μορφές καρκίνου συσχετίζονται:
 Η υπέρ-έκφραση του μεμβρανικού γονιδίου ErbB2 που οφείλεται στην γονιδιακή ενίσχυση
και/ή στην αυξημένη μεταγραφή.
 Ο καταστολέας όγκου p53 (μεταβάλλεται συνήθως σε ανθρώπινους καρκίνους) :
 Δρά ως μεταγραφικός ρυθμιστής
 Παίζει μεγάλο ρόλο στον ελέγχο της γονιδιακής έκφρασης του ErbB2
 Σε καρκίνους όπου ένα γονίδιο ErbB2 υπέρ-εκφράζεται και την p53 είναι μεταλλαγμένη
ή απουσιάζει, η εξέλιξη σε μεταστάσεις είναι πιο συχνή , υποδηλώνοντας έτσι
τη συνεργασία μεταξύ των ρ53 και ΕrbB2.
 Ανάλυση δεδομένων από πειράματα με μικροσυστοιχίες που προέρχονται από το Κέντρο
Γονιδιώματος της Ιατρικής Σχολής του Πανεπιστήμιου McGill του Καναδά.
Εισαγωγή
2/21
ΔεδομένωνΟμαδοποιήσηΣυμπέρασμα
Κύτταρα Καρκίνου (HCT116)
P53 -/-
Χαμηλή
έκφραση
Υψηλή
έκφραση
Υψηλή
έκφραση
Χαμηλή
έκφραση
Γονιδιώματος
 Πειράματα γονιδιωματικής μελέτης από
γονίδια με καρκίνο του παχέος εντέρου HCT116
, πραγματοποιήθηκε με τη μέθοδο Affymetrix.
 Μικροσυστοιχία affimetrix: Οι ανιχνευτές
συντίθενται απευθείας στην επιφάνεια ,
το γονίδιο αντιστοιχεί στο σύνολο των
ανιχνευτών ολιγονουκλεοτιδίων.
γονιδιωματική μελέτη
Εισαγωγή
3/21
ΔεδομένωνΟμαδοποιήσηΣυμπέρασμα
Σκοπός Διπλωματικής
ανάλυση με τη χρήση μεθόδων ομαδοποίησης δεδομένων γονιδιακής
έκφρασης που προήρθαν από πειράματα με μικροσυστοιχίες:
 Χρήση τεχνικές ομαδοποιήσης δεδομένων με σκοπό την οργάνωση
των γονίδιων σε συστάδες βάση της γονιδιακής τους έκφραση
 Περιγραφή αποτελεσμάτων που προκύπτουν από την εφαρμογή
των αλγορίθμων ομαδοποίησης
 Σύγκριση αποτελεσμάτων
 Βιολογική γνώση που προκύπτει.
Εισαγωγή
4/21
 Περιγραφή διαδικασίας παραγωγής και απόκτησης δεδομένων
γονιδιακής έκφρασης με τη μέθοδο affymetrix
 Ομαδοποιήσης δεδομένων με σκοπό την οργάνωση
γονιδίων σε συστάδες βάση της γονιδιακής τους έκφρασης
 Αλγόριθμοι ομαδοποίησης Κ-means, ο SOM (Self-Organizing Map)
και o SOTA (Self-organizing Tree Algorithm)
 Αποτελέσματα που προκύπτουν από την εφαρμογή των αλγορίθμων ομαδοποίησης
 Σύγκριση αποτελεσμάτων
 πειραματική μέθοδος εύρεσης μεταλλαγμένων γονίδιων
ΔεδομένωνΟμαδοποιήσηΣυμπέρασμα
Σύνοψη Μεθοδολογίας
Βήματα που ακολουθήθηκαν στην εκπόνηση της παρούσας διπλωματικής εργασίας
Εισαγωγή
5/21
Συλλογή δεδομένων 1/2
ΕισαγωγήΟμαδοποιήσηΣυμπέρασμα
 Yβριδισμός Δείγματος
προετοιμασίες με βάση
Affymetrix ανάλυσης
 Σάρωση
 Σύνθεση εικόνας
 Επεξεργασία δεδομένων
 Δεδομένα:
data_ file
Microarray πείραμα
Affimerix
Ανάλυση Εικόνας
Βάση Δεδομένων
Επιλογή
Δεδομένων
και Εκτίμηση
Ελλειπών Τιμών
Πίνακας Δεδομένων
Ν γραμμές =12624 γονίδια
Ν στήλες = 8
Κανονικοποίηση
Sequence_Derived_From E vs A F vs B M vs I N vs J A vs I B Vs J E vs M F vs N
U48705 1.744469552 2.13596422 1.888315088 -1.513326608 1.876955294 5.527703424 1.547692484 1.678585976
M87338 4.667634748 -2.989415375 2.400547686 1.543124129 2.91236584 -1.824906532 -1.959941241 3.090843797
X51757 1.426221728 1.475290603 -1.04142901 -1.285911172 3.312581274 -4.729277866 3.094057616 -1.004756572
X69699 1.037252166 1.748759105 2.21083875 1.50839696 1.950610619 1.325960011 5.100428312 1.58019543
L36861 1.162979701 -1.452498334 -1.225565733 -1.259521204 -3.519242794 -2.66709275 -1.426855371 1.041557385
L13852 -1.446128578 -1.181071878 -1.413818777 1.049696806 1.203699591 -1.173154199 1.273404665 -1.357856738
X55005 1.037252166 -1.43097984 1.028806151 1.116495694 -1.326927611 -2.248545549 -1.234037077 -1.028679347
X79510 -1.51966054 -12.70936043 1.020012936 1.100770402 3.510536528 -1.017675932 -1.155685517 9.721202264
M21121 -2.32987382 -2.937274409 -1.026000432 1.085481924 2.888879018 -1.209815268 -1.057746066 2.430300566
J02843 -1.928171437 -1.581609297 -1.110857611 -2.257061997 2.407399182 -1.099832062 -1.11063337 1.620200377
X75208 -1.11844065 -5.657500074 3.293515796 -1.463193542 2.285624126 -1.25335964 -1.11414248 3.891032402
L38487 1.037252166 -2.743607965 1.028806151 1.033792309 2.246905903 1.136537153 -1.234037077 1.620200377
M33318 -4.466930496 -2.156739951 -1.233692827 1.938360579 2.949063998 -2.367257581 1.350580706 2.405752075
L13720 -2.004686177 -1.425600217 1.508249794 8.418023087 1.925919345 3.182304027 2.443907943 1.311590782
Z48481 1.426221728 -1.531399478 1.982333803 -1.074791427 2.810801207 1.886651673 -2.828001636 -1.028679347
L41690 -1.047919259 -1.760262839 -1.701000716 1.039380375 -1.186817242 1.099273639 1.092208745 -1.263806055
L00635 -1.840527281 -2.649000794 1.73611038 -1.151562243 1.575752192 2.386728021 1.031352539 1.005641613
U38545 1.037252166 -1.788724801 2.151140134 -2.552629639 2.567892461 -1.466442749 1.080464564 2.16026717
U38980 1.146436605 1.268749918 -1.086353399 -1.209140356 2.538711865 -1.445493567 1.234816645 1.092693278
U66879 -1.135478735 -1.951336146 -1.232781007 -1.305103876 -1.704437262 1.182926424 -1.322182583 1.355076679
M96577 -4.177704781 -2.485386039 -1.388572013 -1.289749713 -1.44231262 1.486240892 1.800774274 1.45818034
M64571 -1.032948984 1.077603571 1.594649534 1.550688463 1.30465504 1.010255247 1.157640605 1.215150283
L33930 1.286192686 -4.680272411 4.681067988 -2.931249347 2.516120435 1.316719872 -5.216611282 6.249344312
X72631 -1.180818167 -1.596186342 -1.036800437 -1.488172745 -1.849765936 1.531854423 -1.224544484 -1.993066235
AF070618 -2.410214297 -1.174023708 3.600821529 -2.104799878 1.590976851 12.72921611 2.43104527 -1.656715159
U69190 1.891459832 -1.610898358 1.050695644 -1.612187141 -5.365402948 5.114417187 -1.738870427 -5.554868476
AB014574 5.55234983 -1.137202522 1.375136935 -1.340828909 2.90776058 1.626122388 1.798795401 -1.210368167
M13149 1.709274696 2.278853144 1.837153841 1.869815654 2.12177555 2.22293296 1.440619419 -1.148955702
U62317 -1.139374031 -1.3415436 2.31481384 -1.511425444 1.497937269 -1.439780154 1.178688616 -1.410760248
U32645 -1.007907797 1.000631887 2.498529224 -1.036406019 2.995874537 -1.293920073 -1.939201122 -1.146242701
AW003733 1.104171661 4.401948176 4.341060101 -1.439452804 2.029463396 3.278472556 -1.454400841 -1.158838775
L14754 -2.667303822 -1.369358699 -1.749600737 -1.905312075 -1.001377048 1.239858712 -1.682777833 -1.454846506
Y07846 -1.180173897 -2.711330224 -6.998402947 -1.164357379 1.694809024 -3.284831758 -3.976341694 3.56444083
AF017995 1.405309386 -1.437826634 -2.515765765 1.157847386 2.022215313 1.976586352 -1.851055616 1.546554906
L77566 1.037252166 -1.385791003 10.05064471 1.27407917 -1.266927406 -1.086892861 2.052882672 -1.851622825
S72904 -1.638945722 -1.129720927 1.337447996 1.431404735 1.28394623 1.591152014 2.43104527 -1.080113315
D25216 1.231736947 1.239244106 -1.166400491 2.043260093 3.026444686 1.298899603 2.388395353 -1.571073912
AB014515 -1.423174156 -1.877564357 -2.23982703 -1.007616963 1.739540054 2.110711855 -1.619673664 -1.56506215
U79751 1.867053899 -2.008392759 -1.060364083 -1.209140356 2.888879018 1.446501831 -1.388291712 2.16026717
AB007915 -1.007253736 -2.683087201 1.202688881 -2.686978568 1.866660289 -1.252852175 -3.445020174 1.594884746
AB017915 3.176584759 -1.679716641 -1.20193599 -1.054122361 -1.639681716 1.233954623 1.07495199 -2.468830434
D50928 1.016226784 3.653356001 1.281331297 -4.689998955 1.683283837 -1.659395742 -4.066713096 -1.262217361
D83703 -1.229260682 -2.003811571 1.028806151 -1.197514006 1.105369202 1.59241835 -1.391258147 3.855367321
Y13710 1.08394519 -1.213923729 -1.380584652 1.377125168 1.208013926 -1.286203604 1.206795806 -1.135661999
AF029778 -1.11378847 -1.219585091 -1.187653233 -1.573272279 -1.603939714 -1.077263689 -1.141838905 -1.105633986
AF052151 -1.423174156 -1.757343664 -1.271077458 -1.289749713 1.699340599 -1.290469619 1.157640605 1.350166981
AB002386 -2.155015136 -2.044256915 1.440328612 1.044674333 1.333328778 1.084876373 1.525361738 1.388743181
Y10931 -2.487341154 -1.257613862 1.336111885 -2.498890068 -2.122080829 -7.164620289 -1.028364231 -1.422261011
AL041124 1.038405912 -1.001227846 -1.032397459 1.264104381 1.273565481 1.181105103 1.120770111 1.058612172
AI762547 -1.02658546 -1.068054764 1.000328518 1.289816244 1.304310145 1.115330616 1.288953874 1.320450523
S46622 -1.033408303 1.059636701 -1.042589141 1.294082349 1.326506189 1.092258647 1.322482878 1.118747478
X15357 1.044960035 -1.016223829 1.108418678 1.352111234 1.431646879 1.19951194 1.25200995 1.233366607
X64116 1.044284763 -1.075729619 -1.069074112 1.229972672 1.36027264 1.150025274 1.255643039 1.267431847
L02547 1.064443968 -1.004643455 1.0673923 1.116130177 1.270543869 1.05557065 1.248374598 1.245322759
X98507 -1.040197749 -1.241991329 -1.156680487 -1.033768854 -1.683318407 1.950652418 1.117427826 -1.60274879
U56417 -1.543330636 -2.483492652 -1.567742596 -2.662379468 1.025373726 1.032199316 -1.055883837 1.561366285
U56418 2.870066673 -1.420220594 1.218515087 -2.10624449 1.345379064 -1.013034505 -2.836294896 1.126425024
L17325 1.093071639 -1.04003263 1.044399484 1.096229422 1.255977745 1.111800365 1.151671441 1.252922868
L17330 -1.219858258 -1.225743568 -1.259332198 -1.124336394 -1.068748638 -1.056531587 1.158826648 1.350514738
U50277 1.208345307 1.145519762 1.075910699 1.054679373 -1.100068948 -1.273132889 -1.396323662 -1.189083585
X52009 -4.351413919 -1.167128904 -1.291899278 4.097576788 1.195398214 -3.429219967 4.774485305 -1.03553721
Δεδομένων
6/21
Συλλογή δεδομένων 2/2
Περιγραφή Στήλες Δεδομένων
 Εξι πειράματα για τα οποία πάρθηκαν μετρήσεις
 από φυσιολογικά γονίδια (C1-C6)
 από γονίδια με καρκίνο του HCT116 (T1-T6)
 Στα πρώτα τρία πειράματα
 υπερέκφραση των γονιδίων p53 και ErbB2
 Στα τρία τελευταία πειράματα
 υπερέκφραση το ErbB2 και υποεκφραστεί το p53
 Κύτταρα ελέγχου AP2 είναι τα ίδια Κύτταρα
που εξέφρασαν άδεια πλασμώδια
 Πειράματα σε 2 διαφορετικές χρονικές στιγμές
 T/C ως μέσες διαφορές τιμές
ΕισαγωγήΟμαδοποιήσηΣυμπέρασμα
ErbB2
P53+/+
vs
p53-/-
1h
P53+/+
vs
p53-/-
24h
AP2
P53+/+
Vs
P53-/-
1h
P53+/+
Vs
P53-/-
24h
p53-/-
ErbB2
Vs
AP2
1h
ErbB2
Vs
AP2
24h
P53+/+
ErbB2
Vs
AP2
1h
ErbB2
Vs
AP2
24h
(T5/C5) (T6/C6) (T1/T4) (T2/T5)
T = ErbB2 C = τα γονίδια ελέγχου
Δεδομένων
7/21
(T1/C1) (T2/C2) (T3/C3) (T4/C4)
ΕισαγωγήΔεδομένωνΣυμπέρασμα
Ομαδοποίηση (1/8)
Από την Συλλογή δεδομένων στην Ομαδοπόιηση
 Aποδοτική μέθοδος ομαδοποίησης μπορεί να οδηγήσει στην ανακάλυψη νέας
βιολογικής γνώσης για τις λειτουργίες των γονιδίων και τους μηχανισμούς που
οδηγούν σε διάφορες ασθένειες.
 Εφαρμογή τεχνικές ομαδοποίησης ως προς εξέταση γονιδίων με βάση τα προφίλ
έκφρασής τους στα διαφορετικά πειράματα που έχουν πραγματοποιηθεί
 Επίδραση μετρικών αποστάσεων στην ομαδοποίηση
 Διαδοχικές δοκιμές για την εύρεση του βέλτιστου αριθμού ομάδων
Ομαδοποίηση
8/21
2 4 6 8
-0.8-0.6-0.4-0.20.00.20.4
Index
average_timeseries
ΕισαγωγήΔεδομένωνΣυμπέρασμα
Χρήση κλασσικές τεχνικές ομαδοποίησης K-means και Self Organized Maps
 Αποτελέσματα r-code k-means clustering (1/2) (προγράμματα Ομαδοποίησης Δεδομένων)
τα κέντρα βάρη = μέσος όρους της χρονοσειράς
Συστάδες Σύνολο εντός- συστάδων
άθροισμα των τετραγώνων
1η 667230.4
2η 587036.5
3η 546687.4
4η 516637.4
5η 491612.9
6η 473239.7
Σύγκλιση
7η 473239.7
Κ = 6 συστάδες
Ομαδοποίηση (2/8)
Ομαδοποίηση
9/21
Εισαγωγή
 Αποτελέσματα r-code k-means clustering (2/2)
Ομαδοποίηση (3/8)
 Από τα αποτελέσματα της μεθοδολογίας k-means, δεν μπορούμε να βγάλουμε σαφής συμπέρσμα
για την έκφραση γονιδίων, όμως πετύχαμε την ομαδοποιήση των δεδομένων σε 6 συστάδες.
ΔεδομένωνΣυμπέρασμα
0 1000 2000 3000 4000
-10-50510
Index
group6$V1
group 6$V1
0 1000 2000 3000 4000
-10-50510
Index
group6$V1
group 6$V2
0 1000 2000 3000 4000
-10-50510
Index
group6$V1
group 6$V3
0 1000 2000 3000 4000
-10-50510
Index
group6$V1
group 6$V4
0 1000 2000 3000 4000
-10-50510
Index
group6$V1
group 6$V5
0 1000 2000 3000 4000
-10-50510
Index
group6$V1
group 6$V6
0 1000 2000 3000 4000
-10-50510
Index
group6$V1
group 6$V7
0 1000 2000 3000 4000
-10-50510
Index
group6$V1
group 6$V8
Ομαδοποίηση
10/21
ΕισαγωγήΔεδομένωνΣυμπέρασμα
 Αποτελέσματα Mathlab-code SOM (Self Organized Maps) clustering (1/2 )
(προγράμματα Ομαδοποίησης Δεδομένων)
Ομαδοποίηση (4/8)
Τοπολογία 1 X 2
 SOM µπορεί να ϑεωρηθεί ως µια παραλλαγή της µεθόδου kmeans, η οποία περιορίζει
τοπολογικά τους πυρήνες(centroids) των συστάδων
2 4 6 8
-60
-50
-40
-30
-20
-10
0
10
20
SOM CLUSTERING
2 4 6 8
-40
-20
0
20
40
60
Τοπολογία 2 X 2
2 4 6 8
-40
-20
0
2 4 6 8
-20
-10
0
10
20
2 4 6 8
-60
-40
-20
0
20
SOM CLUSTERING
2 4 6 8
-50
0
50
Άθροισμα Σφαλμάτων: 6.7181*104
Άθροισμα Σφαλμάτων: 6.2638*104
Ομαδοποίηση
11/21
ΕισαγωγήΔεδομένωνΣυμπέρασμα
Ομαδοποίηση (5/8)
 Αποτελέσματα Mathlab-code SOM clustering (2/2 )
Τοπολογία 3*3
2 4 6 8
-10
0
10
20
2 4 6 8
-10
0
10
2 4 6 8
-20
0
20
40
2 4 6 8
-30
-20
-10
0
2 4 6 8
-20
-10
0
10
2 4 6 8
-50
0
50
2 4 6 8
-40
-20
0
2 4 6 8
-20
0
20
SOM CLUSTERING
2 4 6 8
-50
0
50
Άθροισμα Σφαλμάτων: 5.7250*104
Τοπολογία 4*4
2 4 6 8
-10
-5
0
2 4 6 8
-40
-20
0
2 4 6 8
-10
0
10
2 4 6 8
-5
0
5
10
15
2 4 6 8
-10
0
10
2 4 6 8
-10
0
10
2 4 6 8
-10
0
10
20
2 4 6 8
-20
0
20
40
2 4 6 8
-20
0
20
2 4 6 8
-10
0
10
20
2 4 6 8
-10
0
10
2 4 6 8
-20
0
20
2 4 6 8
-60
-40
-20
0
2 4 6 8
-20
-10
0
10
2 4 6 8
-20
0
20
40
60
SOM CLUSTERING
2 4 6 8
-50
0
50
Άθροισμα Σφαλμάτων: 5.2803*104
 Επιλογή της τοπολογίας 4X4 με το μικρότερο άθροισμα σφαλμάτων.
Ομαδοποίηση
12/21
ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα
Ομαδοποίηση (6/8)
 Μειονέκτημα μεθοδολογίων K-means και Self Organized Maps
 απαιτούν σαν είσοδο τον αριθμό των ομάδων πριν προχωρήσουν στην
ομαδοποίηση
 πραγματοποιήση διαδοχικών δοκιμών για την εύρεση του βέλτιστου αριθμού
ομάδων
 Η μέθοδος SOTA (Self- Organizing Tree Algorithm) έρχεται να αντιμετωπίσει τους
περιορισμούς των προηγουμένων μεθοδολογίων ομαδοποίησης.
13/21
ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα
Ομαδοποίηση (7/8)
 Αποτελέσματα r-code SOTA (Self- Organizing Tree Algorithm)
Γραφική ομάδων που προέκυψαν από την ομαδοποίηση SOTA
14/21
ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα
Ερμηνεία αποτελέσματων SOTA (8/8)
 Mετρήσεις σε κύτταρα ελέγχου ή καρκινικά κύτταρα:
T1/C1, T2/C2, T3/C3, T4/C4, T5/C5, T6/C6, T1/T4, T2/T5
 Οι ομάδες με το περισσότερο ενδιαφέρον είναι η τέταρτη
και η πέμπτη.
 H τέταρτη ομάδα αποτελείται από 253 γονίδια που παρουσιάζουν
εξαιρετικά μειωμένο λόγο T2/C2 κaι ελαφρώς αυξημένος λόγος T2/T5
 Καταλήξουμε ότι αυτή η ομάδα γονιδίων υπερεκφράζεται
στα φυσιολογικά κύτταρα όταν υπερεκφράζεται το γονίδιο p53.
15/21
 Η πέμπτη ομάδα γονιδίων αποτελείται από 210 γονίδια με χαμηλές τιμές στον λόγο Τ2/C2,
αυξημένες τιμές στους λόγους Τ3/C3 και T2/T5 και εξαιρετικά υψηλή τιμή στον λόγο T5/C5
 Η ομάδα αυτή απαρτίζεται από τα γονίδια που επηρεάζονται περισσότερο από τον συνδυασμό υπερέκφρασης
του ογκογονιδίου ErbB2 και υποέκφρασης του ογκοκατασταλτικού γονιδίου p53
 Κατάληξη με ασφάλεια στο συμπέρασμα ότι αυτά είναι τα γονίδια που συμμετέχουν στον μηχανισμό
της καρκινογέννησης για το συγκεκριμένο είδος καρκίνου
 Περαιτέρω μελέτη της συμπεριφοράς τους σε συνδυασμό με δημιουργία του γονιδιακού ρυθμιστικού δικτύου
Ερμηνεία αποτελέσματων SOTA (2/2)
Δίκτυο Γονιδιακής Ρύθμισης
Δεδομένα
Γονιδιακής Έκφρασης
data _ file
Ομαδοποίηση Κοινής
Έκφρασης
Εξαγωγή Συνρύθμισης
από Συνέκφραση
Βιολογική Γνώση Ανακάλυψη
Λειτουργίας γονιδίων
ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα
16/21
ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα
Αξιολόγιση μεθόδων ομαδοποίησης (1/2)
 Στόχος μίας αποτελεσματικής ομαδοποιήσης , είναι η επιτεύξη
των δύο σκοπών:
Ελαχιστοποίηση της μέσης Ευκλείδειας απόστασης των δειγμάτων
από τα κέντρα των ομάδων
Δημιουργία όσο το δυνατών λιγότερων ομάδων
 Η ταυτόχρονη επίτευξη των δύο στόχων είναι η χρήση της παρακάτω
μετρικής για την αξιολόγηση των αλγορίθμων:
Fitness = Average Euclidean Distances +0.02*Number Of-Clusters
17/21
 Σύγκριση αποτελέσματων των τρίων αλγορίθμων
Αξιολόγιση μεθόδων ομαδοποίησης (1/2)
Algorithm Average Euclidean
Distances Number of Clusters Fitness Value
K-means 5.6394 2 5.6794
< < < 5.5232 4 5.6032
< < < 5.4079 9 5.5879
< < < 5.3298 16 5.6498
< < < 5.2743 25 5.7743
< < < 5.2297 36 5.9497
< < < 5.1922 49 6.1722
SOM(1X2 topology) 5.3229 2 5.3629
SOM(2X2 topology) 4.9610 4 5.0410
SOM(3X3 topology) 4.5318 9 4.7118
SOM(4X4 topology) 4.1839 16 4.4039
SOM(5X5 topology) 3.9574 25 4.4574
SOM(6X6 topology) 3.7255 36 4.4255
SOM(7X7 topology) 3.5323 49 4.5123
SOTA 3.7297 5 3.7797
 Η περιοχή του αλγορίθμου SOTA που καταφέρνει να πετυχαίνει
μικρή μέση ευκλείδειας απόστασης με μόλις 5 ομάδες
ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα
18/21
ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα
 Η επαλήθευση , ότι στους ζωικούς οργανισμούς όταν το p53 υποεκφράζεται
ή δεν εκφράζεται καθόλου και το ErbB2 υπερεκφράζεται, τότε τα κύτταρα
επιδεικνύουν εξαιρετικά επιθετική συμπεριφορά, οδηγώντας σε επιτάχυνση
των καρκινογενέσεων
 Στη τρέχουσα εργασία , οι μεθοδολογίες ομαδοποιήσης που χρησιμοποιήσα,
με πρώτη την ομαδοποιήση self-organizing tree algorithm αξιοποιήθηκαν
υπεύθυνα, και δημιουργικά
 Ελαχιστοποιήση του αριθμού συστάδων (Κ = 5) ,που είναι ο σκοπός
της ομαδοποιήσης ,χωρίς βέβαια να χαθούν οι σημαντικές πληροφορίες
των αρχικών γενετικών δεδομένων, που μας είναι χρήσιμες
 Ανάλυση γονιδίων και clusters μπορούν να καθοδηγήσουν τους ερευνητές να
επιλέγουν τα σημαντικά γονίδια για βιολογικές μελέτες
Συμπεράσματα
19/21
Μελλοντική Έρευνα
Συσχέτιση: Affimetrix / Ομαδοποίηση
Συστάδες
Μεταλλαγμέν
α γονίδια :
Ρ<0.05
Fold<2.5
Χαμηλή
έκφραση
Υψηλή
έκφραση
Όνομα των εμπλεκομένων
3 γονίδιων
1η = 574 6 10 2 ( Τ1/C1) & ( T2/C2) = V1 ,V2
2η = 4442 4 2 3 T3/C3 = V3
3η = 3813 4 4 0 T4/C4 = V4
4η = 667 0 1 2 T5/C5 = V5
5η = 2696 2 3 1 (T6/C6) & (T1/T4) = V6 , V7
6η = 431 1 1 0 T2/T5 = V8
ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα
20/21
 Αρχική προυπόθεση καθορισμού μεταλλαγμένων γονίδιων, που πραγματοποιήθηκε στα πειράματα
affimetrix:
 Η μέση τιμή των δειγμάτων (T/C) να μην ξεπερνάει 0.05 που είναι η τιμή της κατανομής Ρ,
 επίσης οι [Mean T / Mean C] < 2.5 , που είναι ουσιαστικά η τιπική απόκλιση
 Χρήση της αρχικής προυπόθεσης της affimetrix και του μέσου όρου των κέντρων των συστάδων από τα
αποτελέσματα της ομαδοποίησης K-means για τον καθορισμό τον ακριβής αριθμού μεταλλαγμένων
γονίδιων κάθε συστάδα
Ευχαριστώ πολύ για την προσοχή σας
21/21

Weitere ähnliche Inhalte

Andere mochten auch

Κασπαρίδου Έλλη
Κασπαρίδου ΈλληΚασπαρίδου Έλλη
Κασπαρίδου ΈλληISSEL
 
Χαρίτων Καραμήτας 5755
Χαρίτων Καραμήτας 5755Χαρίτων Καραμήτας 5755
Χαρίτων Καραμήτας 5755ISSEL
 
Ουζούνης Γεώργιος
Ουζούνης ΓεώργιοςΟυζούνης Γεώργιος
Ουζούνης ΓεώργιοςISSEL
 
Κωνσταντίνος Σιδέρης 7254
Κωνσταντίνος Σιδέρης 7254Κωνσταντίνος Σιδέρης 7254
Κωνσταντίνος Σιδέρης 7254ISSEL
 
Κλέαρχος Θωμόπουλος 7435
Κλέαρχος Θωμόπουλος 7435Κλέαρχος Θωμόπουλος 7435
Κλέαρχος Θωμόπουλος 7435ISSEL
 
Λυκάρτσης Ιωάννης
Λυκάρτσης ΙωάννηςΛυκάρτσης Ιωάννης
Λυκάρτσης ΙωάννηςISSEL
 
Νούτσος Αντώνης 6992
Νούτσος Αντώνης 6992Νούτσος Αντώνης 6992
Νούτσος Αντώνης 6992ISSEL
 
Σωτήριος Αγγελής
Σωτήριος ΑγγελήςΣωτήριος Αγγελής
Σωτήριος ΑγγελήςISSEL
 
Ιωάννης Αντωνιάδης 7137
Ιωάννης Αντωνιάδης 7137Ιωάννης Αντωνιάδης 7137
Ιωάννης Αντωνιάδης 7137ISSEL
 
Ναταλία Μιχαηλίδου
Ναταλία ΜιχαηλίδουΝαταλία Μιχαηλίδου
Ναταλία ΜιχαηλίδουISSEL
 
Κωνσταντίνος Παπαγγέλου 7498
Κωνσταντίνος Παπαγγέλου 7498 Κωνσταντίνος Παπαγγέλου 7498
Κωνσταντίνος Παπαγγέλου 7498 ISSEL
 
Δούμας Οδυσσέας 7168
Δούμας Οδυσσέας 7168Δούμας Οδυσσέας 7168
Δούμας Οδυσσέας 7168ISSEL
 
Αλεξάνδρα Μπαλτζή 7485
Αλεξάνδρα Μπαλτζή 7485Αλεξάνδρα Μπαλτζή 7485
Αλεξάνδρα Μπαλτζή 7485ISSEL
 
Βασίλειος Λώλης 5638
Βασίλειος Λώλης 5638Βασίλειος Λώλης 5638
Βασίλειος Λώλης 5638ISSEL
 

Andere mochten auch (14)

Κασπαρίδου Έλλη
Κασπαρίδου ΈλληΚασπαρίδου Έλλη
Κασπαρίδου Έλλη
 
Χαρίτων Καραμήτας 5755
Χαρίτων Καραμήτας 5755Χαρίτων Καραμήτας 5755
Χαρίτων Καραμήτας 5755
 
Ουζούνης Γεώργιος
Ουζούνης ΓεώργιοςΟυζούνης Γεώργιος
Ουζούνης Γεώργιος
 
Κωνσταντίνος Σιδέρης 7254
Κωνσταντίνος Σιδέρης 7254Κωνσταντίνος Σιδέρης 7254
Κωνσταντίνος Σιδέρης 7254
 
Κλέαρχος Θωμόπουλος 7435
Κλέαρχος Θωμόπουλος 7435Κλέαρχος Θωμόπουλος 7435
Κλέαρχος Θωμόπουλος 7435
 
Λυκάρτσης Ιωάννης
Λυκάρτσης ΙωάννηςΛυκάρτσης Ιωάννης
Λυκάρτσης Ιωάννης
 
Νούτσος Αντώνης 6992
Νούτσος Αντώνης 6992Νούτσος Αντώνης 6992
Νούτσος Αντώνης 6992
 
Σωτήριος Αγγελής
Σωτήριος ΑγγελήςΣωτήριος Αγγελής
Σωτήριος Αγγελής
 
Ιωάννης Αντωνιάδης 7137
Ιωάννης Αντωνιάδης 7137Ιωάννης Αντωνιάδης 7137
Ιωάννης Αντωνιάδης 7137
 
Ναταλία Μιχαηλίδου
Ναταλία ΜιχαηλίδουΝαταλία Μιχαηλίδου
Ναταλία Μιχαηλίδου
 
Κωνσταντίνος Παπαγγέλου 7498
Κωνσταντίνος Παπαγγέλου 7498 Κωνσταντίνος Παπαγγέλου 7498
Κωνσταντίνος Παπαγγέλου 7498
 
Δούμας Οδυσσέας 7168
Δούμας Οδυσσέας 7168Δούμας Οδυσσέας 7168
Δούμας Οδυσσέας 7168
 
Αλεξάνδρα Μπαλτζή 7485
Αλεξάνδρα Μπαλτζή 7485Αλεξάνδρα Μπαλτζή 7485
Αλεξάνδρα Μπαλτζή 7485
 
Βασίλειος Λώλης 5638
Βασίλειος Λώλης 5638Βασίλειος Λώλης 5638
Βασίλειος Λώλης 5638
 

Mehr von ISSEL

Implementation of a platform for assessing indoor spaces regarding their frie...
Implementation of a platform for assessing indoor spaces regarding their frie...Implementation of a platform for assessing indoor spaces regarding their frie...
Implementation of a platform for assessing indoor spaces regarding their frie...ISSEL
 
Autonomous car position calculation with particle filters using traffic data ...
Autonomous car position calculation with particle filters using traffic data ...Autonomous car position calculation with particle filters using traffic data ...
Autonomous car position calculation with particle filters using traffic data ...ISSEL
 
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...ISSEL
 
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...ISSEL
 
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...ISSEL
 
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής ΝοημοσύνηςΑνάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής ΝοημοσύνηςISSEL
 
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptxΑνάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptxISSEL
 
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...ISSEL
 
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...ISSEL
 
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...ISSEL
 
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...ISSEL
 
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας ΙσχυρισμώνΔημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας ΙσχυρισμώνISSEL
 
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµαταΕξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµαταISSEL
 
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...ISSEL
 
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...ISSEL
 
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...ISSEL
 
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικούΕξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικούISSEL
 
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία ΕφαρµογήςΑνάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία ΕφαρµογήςISSEL
 
Camera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environmentsCamera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environmentsISSEL
 
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...ISSEL
 

Mehr von ISSEL (20)

Implementation of a platform for assessing indoor spaces regarding their frie...
Implementation of a platform for assessing indoor spaces regarding their frie...Implementation of a platform for assessing indoor spaces regarding their frie...
Implementation of a platform for assessing indoor spaces regarding their frie...
 
Autonomous car position calculation with particle filters using traffic data ...
Autonomous car position calculation with particle filters using traffic data ...Autonomous car position calculation with particle filters using traffic data ...
Autonomous car position calculation with particle filters using traffic data ...
 
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
 
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
 
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
 
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής ΝοημοσύνηςΑνάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης
 
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptxΑνάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
 
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
 
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
 
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
 
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
 
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας ΙσχυρισμώνΔημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
 
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµαταΕξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
 
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...
 
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
 
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
 
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικούΕξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
 
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία ΕφαρµογήςΑνάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
 
Camera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environmentsCamera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environments
 
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
 

Ζακιά Αλαουί Τζαμαλί

  • 1. http://www.auth.gr/ee Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Πολυτεχνικής Σχολής Εργαστήριο Επεξεργασίας Πληροφορίας και Υπολογισμών ΓΟΝΙΔΙΩΜΑΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΜΕ ΜΕΘΟΔΟΥΣ YΠΟΛΟΓΙΣΤΙΚΗΣ ΝΟΗΜΟΣΥΝΗΣ ΚΑΙ ΕΦΑΡΜΟΓΕΣ ΣΤΟ R Επιβλέπων Καθηγητής μου: Συμεωνίδης Ανδρέας Αλαουί Τζαμαλί Ζακία Ακαδημαϊκό Έτος: 2015
  • 2.  Παραγωγή μεγάλων ποσοτήτων γενετικών δεδομένων στην Μοριακή Βιολογία.  Ανάλυση της γενετικής πληροφορίας με μεθόδους Βιοπληροφορικής.  Μελέτη και ανάλυση της γονιδιακής έκφρασης με μία πειραματική τεχνική που έχει ξεχωρίσει ιδιαίτερα τα τελευταία χρόνια : οι μικροσυστοιχίες (τσιπ DNA).  Κοινή χρήση των μικροσυστοιχίων είναι να καθοριστεί ποια γονίδια ενεργοποιούνται και ποια γονίδια καταστέλλονται όταν συγκρίνονται δύο πληθυσμοί κυττάρων. Πειραματικές Τεχνικές της Μοριακής Βιολογίας ΔεδομένωνΟμαδοποιήσηΣυμπέρασμαΕισαγωγή 1/21
  • 3. ΔεδομένωνΟμαδοποιήσηΣυμπέρασμα Ερευνητικό Ενδιαφέρον των πειραμάτων Οι διάφορες μορφές καρκίνου συσχετίζονται:  Η υπέρ-έκφραση του μεμβρανικού γονιδίου ErbB2 που οφείλεται στην γονιδιακή ενίσχυση και/ή στην αυξημένη μεταγραφή.  Ο καταστολέας όγκου p53 (μεταβάλλεται συνήθως σε ανθρώπινους καρκίνους) :  Δρά ως μεταγραφικός ρυθμιστής  Παίζει μεγάλο ρόλο στον ελέγχο της γονιδιακής έκφρασης του ErbB2  Σε καρκίνους όπου ένα γονίδιο ErbB2 υπέρ-εκφράζεται και την p53 είναι μεταλλαγμένη ή απουσιάζει, η εξέλιξη σε μεταστάσεις είναι πιο συχνή , υποδηλώνοντας έτσι τη συνεργασία μεταξύ των ρ53 και ΕrbB2.  Ανάλυση δεδομένων από πειράματα με μικροσυστοιχίες που προέρχονται από το Κέντρο Γονιδιώματος της Ιατρικής Σχολής του Πανεπιστήμιου McGill του Καναδά. Εισαγωγή 2/21
  • 4. ΔεδομένωνΟμαδοποιήσηΣυμπέρασμα Κύτταρα Καρκίνου (HCT116) P53 -/- Χαμηλή έκφραση Υψηλή έκφραση Υψηλή έκφραση Χαμηλή έκφραση Γονιδιώματος  Πειράματα γονιδιωματικής μελέτης από γονίδια με καρκίνο του παχέος εντέρου HCT116 , πραγματοποιήθηκε με τη μέθοδο Affymetrix.  Μικροσυστοιχία affimetrix: Οι ανιχνευτές συντίθενται απευθείας στην επιφάνεια , το γονίδιο αντιστοιχεί στο σύνολο των ανιχνευτών ολιγονουκλεοτιδίων. γονιδιωματική μελέτη Εισαγωγή 3/21
  • 5. ΔεδομένωνΟμαδοποιήσηΣυμπέρασμα Σκοπός Διπλωματικής ανάλυση με τη χρήση μεθόδων ομαδοποίησης δεδομένων γονιδιακής έκφρασης που προήρθαν από πειράματα με μικροσυστοιχίες:  Χρήση τεχνικές ομαδοποιήσης δεδομένων με σκοπό την οργάνωση των γονίδιων σε συστάδες βάση της γονιδιακής τους έκφραση  Περιγραφή αποτελεσμάτων που προκύπτουν από την εφαρμογή των αλγορίθμων ομαδοποίησης  Σύγκριση αποτελεσμάτων  Βιολογική γνώση που προκύπτει. Εισαγωγή 4/21
  • 6.  Περιγραφή διαδικασίας παραγωγής και απόκτησης δεδομένων γονιδιακής έκφρασης με τη μέθοδο affymetrix  Ομαδοποιήσης δεδομένων με σκοπό την οργάνωση γονιδίων σε συστάδες βάση της γονιδιακής τους έκφρασης  Αλγόριθμοι ομαδοποίησης Κ-means, ο SOM (Self-Organizing Map) και o SOTA (Self-organizing Tree Algorithm)  Αποτελέσματα που προκύπτουν από την εφαρμογή των αλγορίθμων ομαδοποίησης  Σύγκριση αποτελεσμάτων  πειραματική μέθοδος εύρεσης μεταλλαγμένων γονίδιων ΔεδομένωνΟμαδοποιήσηΣυμπέρασμα Σύνοψη Μεθοδολογίας Βήματα που ακολουθήθηκαν στην εκπόνηση της παρούσας διπλωματικής εργασίας Εισαγωγή 5/21
  • 7. Συλλογή δεδομένων 1/2 ΕισαγωγήΟμαδοποιήσηΣυμπέρασμα  Yβριδισμός Δείγματος προετοιμασίες με βάση Affymetrix ανάλυσης  Σάρωση  Σύνθεση εικόνας  Επεξεργασία δεδομένων  Δεδομένα: data_ file Microarray πείραμα Affimerix Ανάλυση Εικόνας Βάση Δεδομένων Επιλογή Δεδομένων και Εκτίμηση Ελλειπών Τιμών Πίνακας Δεδομένων Ν γραμμές =12624 γονίδια Ν στήλες = 8 Κανονικοποίηση Sequence_Derived_From E vs A F vs B M vs I N vs J A vs I B Vs J E vs M F vs N U48705 1.744469552 2.13596422 1.888315088 -1.513326608 1.876955294 5.527703424 1.547692484 1.678585976 M87338 4.667634748 -2.989415375 2.400547686 1.543124129 2.91236584 -1.824906532 -1.959941241 3.090843797 X51757 1.426221728 1.475290603 -1.04142901 -1.285911172 3.312581274 -4.729277866 3.094057616 -1.004756572 X69699 1.037252166 1.748759105 2.21083875 1.50839696 1.950610619 1.325960011 5.100428312 1.58019543 L36861 1.162979701 -1.452498334 -1.225565733 -1.259521204 -3.519242794 -2.66709275 -1.426855371 1.041557385 L13852 -1.446128578 -1.181071878 -1.413818777 1.049696806 1.203699591 -1.173154199 1.273404665 -1.357856738 X55005 1.037252166 -1.43097984 1.028806151 1.116495694 -1.326927611 -2.248545549 -1.234037077 -1.028679347 X79510 -1.51966054 -12.70936043 1.020012936 1.100770402 3.510536528 -1.017675932 -1.155685517 9.721202264 M21121 -2.32987382 -2.937274409 -1.026000432 1.085481924 2.888879018 -1.209815268 -1.057746066 2.430300566 J02843 -1.928171437 -1.581609297 -1.110857611 -2.257061997 2.407399182 -1.099832062 -1.11063337 1.620200377 X75208 -1.11844065 -5.657500074 3.293515796 -1.463193542 2.285624126 -1.25335964 -1.11414248 3.891032402 L38487 1.037252166 -2.743607965 1.028806151 1.033792309 2.246905903 1.136537153 -1.234037077 1.620200377 M33318 -4.466930496 -2.156739951 -1.233692827 1.938360579 2.949063998 -2.367257581 1.350580706 2.405752075 L13720 -2.004686177 -1.425600217 1.508249794 8.418023087 1.925919345 3.182304027 2.443907943 1.311590782 Z48481 1.426221728 -1.531399478 1.982333803 -1.074791427 2.810801207 1.886651673 -2.828001636 -1.028679347 L41690 -1.047919259 -1.760262839 -1.701000716 1.039380375 -1.186817242 1.099273639 1.092208745 -1.263806055 L00635 -1.840527281 -2.649000794 1.73611038 -1.151562243 1.575752192 2.386728021 1.031352539 1.005641613 U38545 1.037252166 -1.788724801 2.151140134 -2.552629639 2.567892461 -1.466442749 1.080464564 2.16026717 U38980 1.146436605 1.268749918 -1.086353399 -1.209140356 2.538711865 -1.445493567 1.234816645 1.092693278 U66879 -1.135478735 -1.951336146 -1.232781007 -1.305103876 -1.704437262 1.182926424 -1.322182583 1.355076679 M96577 -4.177704781 -2.485386039 -1.388572013 -1.289749713 -1.44231262 1.486240892 1.800774274 1.45818034 M64571 -1.032948984 1.077603571 1.594649534 1.550688463 1.30465504 1.010255247 1.157640605 1.215150283 L33930 1.286192686 -4.680272411 4.681067988 -2.931249347 2.516120435 1.316719872 -5.216611282 6.249344312 X72631 -1.180818167 -1.596186342 -1.036800437 -1.488172745 -1.849765936 1.531854423 -1.224544484 -1.993066235 AF070618 -2.410214297 -1.174023708 3.600821529 -2.104799878 1.590976851 12.72921611 2.43104527 -1.656715159 U69190 1.891459832 -1.610898358 1.050695644 -1.612187141 -5.365402948 5.114417187 -1.738870427 -5.554868476 AB014574 5.55234983 -1.137202522 1.375136935 -1.340828909 2.90776058 1.626122388 1.798795401 -1.210368167 M13149 1.709274696 2.278853144 1.837153841 1.869815654 2.12177555 2.22293296 1.440619419 -1.148955702 U62317 -1.139374031 -1.3415436 2.31481384 -1.511425444 1.497937269 -1.439780154 1.178688616 -1.410760248 U32645 -1.007907797 1.000631887 2.498529224 -1.036406019 2.995874537 -1.293920073 -1.939201122 -1.146242701 AW003733 1.104171661 4.401948176 4.341060101 -1.439452804 2.029463396 3.278472556 -1.454400841 -1.158838775 L14754 -2.667303822 -1.369358699 -1.749600737 -1.905312075 -1.001377048 1.239858712 -1.682777833 -1.454846506 Y07846 -1.180173897 -2.711330224 -6.998402947 -1.164357379 1.694809024 -3.284831758 -3.976341694 3.56444083 AF017995 1.405309386 -1.437826634 -2.515765765 1.157847386 2.022215313 1.976586352 -1.851055616 1.546554906 L77566 1.037252166 -1.385791003 10.05064471 1.27407917 -1.266927406 -1.086892861 2.052882672 -1.851622825 S72904 -1.638945722 -1.129720927 1.337447996 1.431404735 1.28394623 1.591152014 2.43104527 -1.080113315 D25216 1.231736947 1.239244106 -1.166400491 2.043260093 3.026444686 1.298899603 2.388395353 -1.571073912 AB014515 -1.423174156 -1.877564357 -2.23982703 -1.007616963 1.739540054 2.110711855 -1.619673664 -1.56506215 U79751 1.867053899 -2.008392759 -1.060364083 -1.209140356 2.888879018 1.446501831 -1.388291712 2.16026717 AB007915 -1.007253736 -2.683087201 1.202688881 -2.686978568 1.866660289 -1.252852175 -3.445020174 1.594884746 AB017915 3.176584759 -1.679716641 -1.20193599 -1.054122361 -1.639681716 1.233954623 1.07495199 -2.468830434 D50928 1.016226784 3.653356001 1.281331297 -4.689998955 1.683283837 -1.659395742 -4.066713096 -1.262217361 D83703 -1.229260682 -2.003811571 1.028806151 -1.197514006 1.105369202 1.59241835 -1.391258147 3.855367321 Y13710 1.08394519 -1.213923729 -1.380584652 1.377125168 1.208013926 -1.286203604 1.206795806 -1.135661999 AF029778 -1.11378847 -1.219585091 -1.187653233 -1.573272279 -1.603939714 -1.077263689 -1.141838905 -1.105633986 AF052151 -1.423174156 -1.757343664 -1.271077458 -1.289749713 1.699340599 -1.290469619 1.157640605 1.350166981 AB002386 -2.155015136 -2.044256915 1.440328612 1.044674333 1.333328778 1.084876373 1.525361738 1.388743181 Y10931 -2.487341154 -1.257613862 1.336111885 -2.498890068 -2.122080829 -7.164620289 -1.028364231 -1.422261011 AL041124 1.038405912 -1.001227846 -1.032397459 1.264104381 1.273565481 1.181105103 1.120770111 1.058612172 AI762547 -1.02658546 -1.068054764 1.000328518 1.289816244 1.304310145 1.115330616 1.288953874 1.320450523 S46622 -1.033408303 1.059636701 -1.042589141 1.294082349 1.326506189 1.092258647 1.322482878 1.118747478 X15357 1.044960035 -1.016223829 1.108418678 1.352111234 1.431646879 1.19951194 1.25200995 1.233366607 X64116 1.044284763 -1.075729619 -1.069074112 1.229972672 1.36027264 1.150025274 1.255643039 1.267431847 L02547 1.064443968 -1.004643455 1.0673923 1.116130177 1.270543869 1.05557065 1.248374598 1.245322759 X98507 -1.040197749 -1.241991329 -1.156680487 -1.033768854 -1.683318407 1.950652418 1.117427826 -1.60274879 U56417 -1.543330636 -2.483492652 -1.567742596 -2.662379468 1.025373726 1.032199316 -1.055883837 1.561366285 U56418 2.870066673 -1.420220594 1.218515087 -2.10624449 1.345379064 -1.013034505 -2.836294896 1.126425024 L17325 1.093071639 -1.04003263 1.044399484 1.096229422 1.255977745 1.111800365 1.151671441 1.252922868 L17330 -1.219858258 -1.225743568 -1.259332198 -1.124336394 -1.068748638 -1.056531587 1.158826648 1.350514738 U50277 1.208345307 1.145519762 1.075910699 1.054679373 -1.100068948 -1.273132889 -1.396323662 -1.189083585 X52009 -4.351413919 -1.167128904 -1.291899278 4.097576788 1.195398214 -3.429219967 4.774485305 -1.03553721 Δεδομένων 6/21
  • 8. Συλλογή δεδομένων 2/2 Περιγραφή Στήλες Δεδομένων  Εξι πειράματα για τα οποία πάρθηκαν μετρήσεις  από φυσιολογικά γονίδια (C1-C6)  από γονίδια με καρκίνο του HCT116 (T1-T6)  Στα πρώτα τρία πειράματα  υπερέκφραση των γονιδίων p53 και ErbB2  Στα τρία τελευταία πειράματα  υπερέκφραση το ErbB2 και υποεκφραστεί το p53  Κύτταρα ελέγχου AP2 είναι τα ίδια Κύτταρα που εξέφρασαν άδεια πλασμώδια  Πειράματα σε 2 διαφορετικές χρονικές στιγμές  T/C ως μέσες διαφορές τιμές ΕισαγωγήΟμαδοποιήσηΣυμπέρασμα ErbB2 P53+/+ vs p53-/- 1h P53+/+ vs p53-/- 24h AP2 P53+/+ Vs P53-/- 1h P53+/+ Vs P53-/- 24h p53-/- ErbB2 Vs AP2 1h ErbB2 Vs AP2 24h P53+/+ ErbB2 Vs AP2 1h ErbB2 Vs AP2 24h (T5/C5) (T6/C6) (T1/T4) (T2/T5) T = ErbB2 C = τα γονίδια ελέγχου Δεδομένων 7/21 (T1/C1) (T2/C2) (T3/C3) (T4/C4)
  • 9. ΕισαγωγήΔεδομένωνΣυμπέρασμα Ομαδοποίηση (1/8) Από την Συλλογή δεδομένων στην Ομαδοπόιηση  Aποδοτική μέθοδος ομαδοποίησης μπορεί να οδηγήσει στην ανακάλυψη νέας βιολογικής γνώσης για τις λειτουργίες των γονιδίων και τους μηχανισμούς που οδηγούν σε διάφορες ασθένειες.  Εφαρμογή τεχνικές ομαδοποίησης ως προς εξέταση γονιδίων με βάση τα προφίλ έκφρασής τους στα διαφορετικά πειράματα που έχουν πραγματοποιηθεί  Επίδραση μετρικών αποστάσεων στην ομαδοποίηση  Διαδοχικές δοκιμές για την εύρεση του βέλτιστου αριθμού ομάδων Ομαδοποίηση 8/21
  • 10. 2 4 6 8 -0.8-0.6-0.4-0.20.00.20.4 Index average_timeseries ΕισαγωγήΔεδομένωνΣυμπέρασμα Χρήση κλασσικές τεχνικές ομαδοποίησης K-means και Self Organized Maps  Αποτελέσματα r-code k-means clustering (1/2) (προγράμματα Ομαδοποίησης Δεδομένων) τα κέντρα βάρη = μέσος όρους της χρονοσειράς Συστάδες Σύνολο εντός- συστάδων άθροισμα των τετραγώνων 1η 667230.4 2η 587036.5 3η 546687.4 4η 516637.4 5η 491612.9 6η 473239.7 Σύγκλιση 7η 473239.7 Κ = 6 συστάδες Ομαδοποίηση (2/8) Ομαδοποίηση 9/21
  • 11. Εισαγωγή  Αποτελέσματα r-code k-means clustering (2/2) Ομαδοποίηση (3/8)  Από τα αποτελέσματα της μεθοδολογίας k-means, δεν μπορούμε να βγάλουμε σαφής συμπέρσμα για την έκφραση γονιδίων, όμως πετύχαμε την ομαδοποιήση των δεδομένων σε 6 συστάδες. ΔεδομένωνΣυμπέρασμα 0 1000 2000 3000 4000 -10-50510 Index group6$V1 group 6$V1 0 1000 2000 3000 4000 -10-50510 Index group6$V1 group 6$V2 0 1000 2000 3000 4000 -10-50510 Index group6$V1 group 6$V3 0 1000 2000 3000 4000 -10-50510 Index group6$V1 group 6$V4 0 1000 2000 3000 4000 -10-50510 Index group6$V1 group 6$V5 0 1000 2000 3000 4000 -10-50510 Index group6$V1 group 6$V6 0 1000 2000 3000 4000 -10-50510 Index group6$V1 group 6$V7 0 1000 2000 3000 4000 -10-50510 Index group6$V1 group 6$V8 Ομαδοποίηση 10/21
  • 12. ΕισαγωγήΔεδομένωνΣυμπέρασμα  Αποτελέσματα Mathlab-code SOM (Self Organized Maps) clustering (1/2 ) (προγράμματα Ομαδοποίησης Δεδομένων) Ομαδοποίηση (4/8) Τοπολογία 1 X 2  SOM µπορεί να ϑεωρηθεί ως µια παραλλαγή της µεθόδου kmeans, η οποία περιορίζει τοπολογικά τους πυρήνες(centroids) των συστάδων 2 4 6 8 -60 -50 -40 -30 -20 -10 0 10 20 SOM CLUSTERING 2 4 6 8 -40 -20 0 20 40 60 Τοπολογία 2 X 2 2 4 6 8 -40 -20 0 2 4 6 8 -20 -10 0 10 20 2 4 6 8 -60 -40 -20 0 20 SOM CLUSTERING 2 4 6 8 -50 0 50 Άθροισμα Σφαλμάτων: 6.7181*104 Άθροισμα Σφαλμάτων: 6.2638*104 Ομαδοποίηση 11/21
  • 13. ΕισαγωγήΔεδομένωνΣυμπέρασμα Ομαδοποίηση (5/8)  Αποτελέσματα Mathlab-code SOM clustering (2/2 ) Τοπολογία 3*3 2 4 6 8 -10 0 10 20 2 4 6 8 -10 0 10 2 4 6 8 -20 0 20 40 2 4 6 8 -30 -20 -10 0 2 4 6 8 -20 -10 0 10 2 4 6 8 -50 0 50 2 4 6 8 -40 -20 0 2 4 6 8 -20 0 20 SOM CLUSTERING 2 4 6 8 -50 0 50 Άθροισμα Σφαλμάτων: 5.7250*104 Τοπολογία 4*4 2 4 6 8 -10 -5 0 2 4 6 8 -40 -20 0 2 4 6 8 -10 0 10 2 4 6 8 -5 0 5 10 15 2 4 6 8 -10 0 10 2 4 6 8 -10 0 10 2 4 6 8 -10 0 10 20 2 4 6 8 -20 0 20 40 2 4 6 8 -20 0 20 2 4 6 8 -10 0 10 20 2 4 6 8 -10 0 10 2 4 6 8 -20 0 20 2 4 6 8 -60 -40 -20 0 2 4 6 8 -20 -10 0 10 2 4 6 8 -20 0 20 40 60 SOM CLUSTERING 2 4 6 8 -50 0 50 Άθροισμα Σφαλμάτων: 5.2803*104  Επιλογή της τοπολογίας 4X4 με το μικρότερο άθροισμα σφαλμάτων. Ομαδοποίηση 12/21
  • 14. ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα Ομαδοποίηση (6/8)  Μειονέκτημα μεθοδολογίων K-means και Self Organized Maps  απαιτούν σαν είσοδο τον αριθμό των ομάδων πριν προχωρήσουν στην ομαδοποίηση  πραγματοποιήση διαδοχικών δοκιμών για την εύρεση του βέλτιστου αριθμού ομάδων  Η μέθοδος SOTA (Self- Organizing Tree Algorithm) έρχεται να αντιμετωπίσει τους περιορισμούς των προηγουμένων μεθοδολογίων ομαδοποίησης. 13/21
  • 15. ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα Ομαδοποίηση (7/8)  Αποτελέσματα r-code SOTA (Self- Organizing Tree Algorithm) Γραφική ομάδων που προέκυψαν από την ομαδοποίηση SOTA 14/21
  • 16. ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα Ερμηνεία αποτελέσματων SOTA (8/8)  Mετρήσεις σε κύτταρα ελέγχου ή καρκινικά κύτταρα: T1/C1, T2/C2, T3/C3, T4/C4, T5/C5, T6/C6, T1/T4, T2/T5  Οι ομάδες με το περισσότερο ενδιαφέρον είναι η τέταρτη και η πέμπτη.  H τέταρτη ομάδα αποτελείται από 253 γονίδια που παρουσιάζουν εξαιρετικά μειωμένο λόγο T2/C2 κaι ελαφρώς αυξημένος λόγος T2/T5  Καταλήξουμε ότι αυτή η ομάδα γονιδίων υπερεκφράζεται στα φυσιολογικά κύτταρα όταν υπερεκφράζεται το γονίδιο p53. 15/21
  • 17.  Η πέμπτη ομάδα γονιδίων αποτελείται από 210 γονίδια με χαμηλές τιμές στον λόγο Τ2/C2, αυξημένες τιμές στους λόγους Τ3/C3 και T2/T5 και εξαιρετικά υψηλή τιμή στον λόγο T5/C5  Η ομάδα αυτή απαρτίζεται από τα γονίδια που επηρεάζονται περισσότερο από τον συνδυασμό υπερέκφρασης του ογκογονιδίου ErbB2 και υποέκφρασης του ογκοκατασταλτικού γονιδίου p53  Κατάληξη με ασφάλεια στο συμπέρασμα ότι αυτά είναι τα γονίδια που συμμετέχουν στον μηχανισμό της καρκινογέννησης για το συγκεκριμένο είδος καρκίνου  Περαιτέρω μελέτη της συμπεριφοράς τους σε συνδυασμό με δημιουργία του γονιδιακού ρυθμιστικού δικτύου Ερμηνεία αποτελέσματων SOTA (2/2) Δίκτυο Γονιδιακής Ρύθμισης Δεδομένα Γονιδιακής Έκφρασης data _ file Ομαδοποίηση Κοινής Έκφρασης Εξαγωγή Συνρύθμισης από Συνέκφραση Βιολογική Γνώση Ανακάλυψη Λειτουργίας γονιδίων ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα 16/21
  • 18. ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα Αξιολόγιση μεθόδων ομαδοποίησης (1/2)  Στόχος μίας αποτελεσματικής ομαδοποιήσης , είναι η επιτεύξη των δύο σκοπών: Ελαχιστοποίηση της μέσης Ευκλείδειας απόστασης των δειγμάτων από τα κέντρα των ομάδων Δημιουργία όσο το δυνατών λιγότερων ομάδων  Η ταυτόχρονη επίτευξη των δύο στόχων είναι η χρήση της παρακάτω μετρικής για την αξιολόγηση των αλγορίθμων: Fitness = Average Euclidean Distances +0.02*Number Of-Clusters 17/21
  • 19.  Σύγκριση αποτελέσματων των τρίων αλγορίθμων Αξιολόγιση μεθόδων ομαδοποίησης (1/2) Algorithm Average Euclidean Distances Number of Clusters Fitness Value K-means 5.6394 2 5.6794 < < < 5.5232 4 5.6032 < < < 5.4079 9 5.5879 < < < 5.3298 16 5.6498 < < < 5.2743 25 5.7743 < < < 5.2297 36 5.9497 < < < 5.1922 49 6.1722 SOM(1X2 topology) 5.3229 2 5.3629 SOM(2X2 topology) 4.9610 4 5.0410 SOM(3X3 topology) 4.5318 9 4.7118 SOM(4X4 topology) 4.1839 16 4.4039 SOM(5X5 topology) 3.9574 25 4.4574 SOM(6X6 topology) 3.7255 36 4.4255 SOM(7X7 topology) 3.5323 49 4.5123 SOTA 3.7297 5 3.7797  Η περιοχή του αλγορίθμου SOTA που καταφέρνει να πετυχαίνει μικρή μέση ευκλείδειας απόστασης με μόλις 5 ομάδες ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα 18/21
  • 20. ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα  Η επαλήθευση , ότι στους ζωικούς οργανισμούς όταν το p53 υποεκφράζεται ή δεν εκφράζεται καθόλου και το ErbB2 υπερεκφράζεται, τότε τα κύτταρα επιδεικνύουν εξαιρετικά επιθετική συμπεριφορά, οδηγώντας σε επιτάχυνση των καρκινογενέσεων  Στη τρέχουσα εργασία , οι μεθοδολογίες ομαδοποιήσης που χρησιμοποιήσα, με πρώτη την ομαδοποιήση self-organizing tree algorithm αξιοποιήθηκαν υπεύθυνα, και δημιουργικά  Ελαχιστοποιήση του αριθμού συστάδων (Κ = 5) ,που είναι ο σκοπός της ομαδοποιήσης ,χωρίς βέβαια να χαθούν οι σημαντικές πληροφορίες των αρχικών γενετικών δεδομένων, που μας είναι χρήσιμες  Ανάλυση γονιδίων και clusters μπορούν να καθοδηγήσουν τους ερευνητές να επιλέγουν τα σημαντικά γονίδια για βιολογικές μελέτες Συμπεράσματα 19/21
  • 21. Μελλοντική Έρευνα Συσχέτιση: Affimetrix / Ομαδοποίηση Συστάδες Μεταλλαγμέν α γονίδια : Ρ<0.05 Fold<2.5 Χαμηλή έκφραση Υψηλή έκφραση Όνομα των εμπλεκομένων 3 γονίδιων 1η = 574 6 10 2 ( Τ1/C1) & ( T2/C2) = V1 ,V2 2η = 4442 4 2 3 T3/C3 = V3 3η = 3813 4 4 0 T4/C4 = V4 4η = 667 0 1 2 T5/C5 = V5 5η = 2696 2 3 1 (T6/C6) & (T1/T4) = V6 , V7 6η = 431 1 1 0 T2/T5 = V8 ΕισαγωγήΔεδομένωνΟμαδοποίησηΣυμπέρασμα 20/21  Αρχική προυπόθεση καθορισμού μεταλλαγμένων γονίδιων, που πραγματοποιήθηκε στα πειράματα affimetrix:  Η μέση τιμή των δειγμάτων (T/C) να μην ξεπερνάει 0.05 που είναι η τιμή της κατανομής Ρ,  επίσης οι [Mean T / Mean C] < 2.5 , που είναι ουσιαστικά η τιπική απόκλιση  Χρήση της αρχικής προυπόθεσης της affimetrix και του μέσου όρου των κέντρων των συστάδων από τα αποτελέσματα της ομαδοποίησης K-means για τον καθορισμό τον ακριβής αριθμού μεταλλαγμένων γονίδιων κάθε συστάδα
  • 22. Ευχαριστώ πολύ για την προσοχή σας 21/21