SlideShare ist ein Scribd-Unternehmen logo
1 von 93
ΑΝAΚΤΗΣΗ ΕΓΓΡAΦΩΝ ΒAΣΕΙ
ΠΕΡΙΕΧΟΜEΝΟΥ ΚΑΙ MPEG-7
ΜΕΤΑΔΕΔΟΜEΝΩΝ
Διδακτορική Διατριβή: Κωνσταντίνος Ζαγόρης2009
ΔΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ
ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ
ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΥΣΗΣ ΗΛΕΚΤΡΙΚΩΝ ΚΥΚΛΩΜΑΤΩΝ
Περιεχόμενα Διατριβής
2
 Μείωση των Χρωματικών Αποχρώσεων Συνδυάζοντας
το Kohonen Self-Organized Feature Map και τον
Ασαφή Αλγόριθμο Gustafson – Kessel
 Αλγόριθμος Ανάδρασης με βάση τη Συνάφεια
 Εντοπισμός Κειμένου σε Εικόνες Έγραφα
Χρησιμοποιώντας τα Δομικά Συστατικά των
Εγγράφων και Support Vector Machines
 Ανάκτηση Εγγράφων - Εικόνων Με την Τεχνική
Εντοπισμού των Λέξεων
 Συνεπτυγμένος Περιγραφέας Σχήματος Στα πρότυπα
των Περιγραφέων Σχήματος του MPEG-7
Ανάκτηση Εικόνων με βάσει το Περιεχόμενο
3
 H Αναζήτηση και Παρουσίαση Παρόμοιων
Εικόνων από μία Βάση Δεδομένων Εικόνων που
είναι Σχετικές με το Αίτημα του Χρήστη
 Χωρίς Οποιαδήποτε Επιπλέον Πληροφορία εκτός
από αυτήν που Προέρχεται από την Ανάλυση των
Εικονοστοιχείων της Εικόνας
Το Γενικό Πρόβλημα της Ανάκτησης Εικόνας
4
 Η Ποιότητα Ανάκτησης (Ακρίβεια – Ανάκληση)
 Η Ταχύτητα Ανάκτησης (Εξαγωγή
Χαρακτηριστικών - Δημιουργία Περιγραφέα –
Σύγκριση Περιγραφέα)
 Μέγεθος Περιγραφέα (κόστος αποθήκευσης και
κατανάλωσης μνήμης)
Γενικό Διάγραμμα Συστήματος Ανάκτησης
Εικόνας
5
Συνδυάζοντας το Kohonen Self-Organized
Feature Map και τον ασαφή αλγόριθμο
Gustafson – Kessel
ΜΕΙΩΣΗ ΤΩΝ ΧΡΩΜΑΤΙΚΩΝ ΑΠΟΧΡΩΣΕΩΝ
6
1.
Ορισμός του Προβλήματος
7
 Η κβαντοποίηση των χρωματικών αποχρώσεων
είναι σημαντικό και χρήσιμο εργαλείο για την
συμπίεση, εμφάνιση και την μετάδοση μίας
εικόνας
 Η μείωση των χρωματικών αποχρώσεων μίας
εικόνας είναι σημαντική διαδικασία για την
διαδικασία κατάτμηση μίας εικόνας
 Προτείνεται μία Color Clustering τεχνική, η
οποία αποτελείται από τον συνδυασμό ενός
νευρωνικού δικτύου και ενός ασαφούς
αλγορίθμου
Παράδειγμα Μείωσης των Χρωματικών
Αποχρώσεων
8
Αρχική Εικόνα RGB χρωματική κατανομή
Εικόνα με μόνο 20 κύρια χρώματα Κατανομή των 20 χρωμάτων
Διάγραμμα της Προτεινόμενης Τεχνικής
9
Αρχική Εικόνα Δειγματοληψία
Ορισμός του Πλήθους
των Τελικών
Χρωμάτων
Εκπαίδευση του
KSOFM
Ταξινόμηση με τον
KSOFM
Aρχικοποίηση του
GK με τα εξαγόμενα
αποτελέσματα του
KSOFM
Εκτέλεση του GK
Tελική Ταξινόμηση
με τον GK
Τελική Εικόνα
Μορφοκλασματική Δειγματοληψία –
Καμπύλη του Hilbert
10
ΠΛΕΟΝΕΚΤΗΜΑΤΑ
 Μικρός αριθμός των
εικονοστοιχείων – δειγμάτων
εκπαίδευσης
 Η σχέση των γειτονικών
εικονοστοιχείων διατηρείτε
j k jky arg min x w 
Kohonen Self Organized Featured Map
(KSOFM)
 Ο λογάριθμος εκπαίδευσης του
KSOFM στηρίζεται στην
Ανταγωνιστική Εκμάθηση
11
X1
Xk
X3
X2
Yj
Y3
Y2
Y1
Competitive LayerInput Layer
......
......
Wj1
Wj2
Wj3
Wjk
 Ο νικητής νευρώνας εξόδου
μεταβάλουν τα βάρη των
συνδέσεων τους:
 jk k jkw n x w  
Ασαφής Αλγόριθμος Gustafson - Kessel
 Ο ασαφής αλγόριθμος Gustafson – Kessel (GK)
είναι μια προέκταση του ασαφή C-Mean
αλγορίθμου.
 Δημιουργεί ελλειψοειδείς κλάσεις χρησιμοποιώντας
έναν πίνακα συνδιακύμανσης
 Στηρίζεται στην Mahalanobis απόσταση
12
   2 T
ik k i i k id x v A x v  
13
Παράδειγμα 1
Original Image
22410 colors
FCM
4 colors
KSOFM
4 colors
Median Cut
4 colors
KSOFM – GK
4 colors
15
Παράδειγμα 2
Original
Image
33784 colors
FCM
5 colors
KSOFM
5 colors
Median Cut
5 colors
KSOFM – GK
5 colors
16
Παράδειγμα 3
Original
Image
31655 colors
FCM
4 colors
KSOFM
4 colors
Median Cut
4 colors
KSOFM – GK
4 colors
Συμπεράσματα
18
 Παρουσιάστηκε μία υβριδική (neuro-fuzzy)
τεχνική μείωσης των χρωματικών αποχρώσεων
μίας εικόνας
 Έχει την ικανότητα να διατηρεί τα κύρια χρώματα
μια εικόνας ακόμα και αν το πλήθος αυτών είναι
πολύ μικρό
 Ενοποιεί περιοχές που έχουν παρόμοια χρώματα
 Μπορεί να θεωρεί ως μία ισχυρή τεχνική
κατάτμησης ψηφιακής εικόνας
Για εικόνες που περιέχουν πολλά χρώματα και
απεικονίζουν σκηνές
Αλγόριθμος Ανάδρασης με βάση τη
Συνάφεια
19
2.
Αλγόριθμος Ανάδρασης Συνάφειας
20
 Πολλές φορές ο χρήστης δεν ξέρει τι ακριβώς
ψάχνει αλλά έχει μία γενική ιδέα
 Ο χρήστης αλληλοεπιδρά με το Σύστημα
Ανάκτησης
 Το σύστημα ανάκτησης του δίνει ένα σύνολο
αποτελεσμάτων
 Ο χρήστης επιλέγει εκείνα που τον ενδιαφέρουν
 Το Σύστημα Ανάκτησης χρησιμοποιεί αυτήν την
πληροφορία για να βελτιώσει τα αρχικά
αποτελέσματα της ανάκτησης
Προτεινόμενο Σύστημα Ανάδρασης Συνάφειας
για Εικόνες Φύσης
21
 Στηρίζεται στους τέσσερις παρόμοιους με τους
MPEG-7 περιγραφείς που προτείνονται στην
εργασία «ACCURATE IMAGE RETRIEVAL
BASED ON COMPACT COMPOSITE
DESCRIPTORS AND RELEVANCE FEEDBACK
INFORMATION».
Αυτοί είναι:
 Color and Edge Directivity Descriptor (CEDD)
 Fuzzy Color and Texture Histogram (FCTH)
 Και οι Compact μορφές τους (C.CEDD, C.FCTH)
 Περιέχουν πληροφορίες υφής και χρώματος.
Η Διάταξη του Προτεινόμενου Αλγορίθμου
22
Ο Χρήστης Επιλέγει την Εικόνα
Ερώτημα
Ο Περιγραφέας της Εικόνας
Ερώτημα
Εμφάνιση των Αποτελεσμάτων
Ανάκτησης στο Χρήστη
Αρχικοποίηση του
διανύσματος W
Ο Χρήστης Επιλέγει Συναφή Εικόνα
από τα Αποτελέσματα
Μετασχηματισμός στο
διάνυσμα X
Μεταβολή των Τιμών του
διανύσματος W
Δημιουργία του Νέου
Περιγραφέα Ερώτημα
από το Διάνυσμα W
Αλγόριθμος Ανάδρασης Συνάφειας
23
 Μετασχηματίζεται το μονοδιάστατο διάνυσμα των
περιγραφέων σε ένα τρισδιάστατο διάνυσμα με
βάση τα εσωτερικά χαρακτηριστικά τους
( )i k m x m y z    
H x διάσταση αντιπροσωπεύει την υφή
H y διάσταση αντιπροσωπεύει τα
κύρια χρώματα
H z διάσταση αντιπροσωπεύει τις
αποχρώσεις των κύριων χρωμάτων
Αλγόριθμος Ανάδρασης Συνάφειας
24
 Το τρισδιάστατο διάνυσμα θα αποθηκεύει την
πληροφορία που θα δίνεται από τον χρήστη
 Οι αρχικές τιμές που περιέχει είναι οι τιμές του
περιγραφέα της εικόνας – ερώτημα
 Όταν ο χρήστης επιλέγει μία εικόνα από τα
αποτελέσματα της αρχικής ανάκτησης, το
διάνυσμα του περιγραφέα αλλάζει τις τιμές του
τρισδιάστατου διανύσματος
25
Αλγόριθμος Ανάδρασης Συνάφειας
   
    
, , , ,
, ,
1xt yt zt xt yt zt
i xt yt zt
W t W t
L t X W t
 
  
   
      
, , , ,
1 , ,
1
, ,
xq yq zq xq yq zq
xt yt zt
W t W t
L t h xq yq zq X W t
  
  
Παρουσίαση Προτεινόμενης Τεχνικής
26
 .NET
Framework
 ASP.NET / C#
 AJAX/ HTML/
Javascript
Συμπεράσματα
27
 Παρουσιάστηκε ένας Αλγόριθμος Ανάδρασης
Συνάφειας
 Βελτιώνει τα αποτελέσματα της αρχικής
ανάκτησης
 Είναι πολύ εύκολος στην υλοποίησή του
 Μικρό υπολογιστικό κόστος
Χρησιμοποιώντας τα δομικά συστατικά των
εγγράφων και Support Vector Machines
Εντοπισμός Κειμένου σε Εικόνες Έγραφα
28
3.
Το Πρόβλημα Εντοπισμού Κειμένου σε Εικόνες -
Έγγραφα
29
 Στην σημερινή εποχή δημιουργούνται μεγάλες
ποσότητες ψηφιακών εγγράφων χωρίς καμία μετα
πληροφορία
 Για την ανάλυσής τους από συστήματα όπως
Οπτικής Αναγνώρισης Χαρακτήρων (OCR),
Συστήματα Ανάκτησης Εγγράφων απαιτείται
συνήθως ο εντοπισμός της θέσης του κειμένου
στην εικόνα
 Κάθε σύνολο από έγγραφα μπορεί να έχει τα δικά
του ιδιαίτερα χαρακτηριστικά
Προτείνουμε
30
 Προτείνουμε μία μέθοδο εντοπισμού
ομοιόμορφου κειμένου
 Στηρίζεται στα δομικά συστατικά των εγγράφων
και στα Support Vector Machines
 Έχει την ικανότητα να προσαρμόζεται στις
ιδιαιτερότητες της κάθε βάσης εγγράφων -
εικόνων
Διάγραμμα της Προτεινόμενης Τεχνικής
Εφαρμογή ενός φίλτρου
Μεσαίας Τιμής και μίας
τεχνικής
δυαδικοποίησης
Εντοπισμός, Ενοποίηση
και Εξαγωγή Πλαισίων
Δημιουργία Περιγραφέα
για κάθε Πλαίσιο
Εντοπισμός των
Πλαισίων που περιέχουν
Κείμενο με τα Support
Vector Machines
Εξαγωγή ή Εντοπισμός
των Πλαισίων της
Εικόνας που περιέχουν
Κείμενο και Εμφάνισής
τους στον Χρήστη
31
Εντοπισμός, Ενοποίηση και Εξαγωγή Πλαισίων
32
 Το Αρχικό Κείμενο  Μετά την Διαδικασία Προ - Επεξεργασίας
 Τα συνδεδεμένα Αντικείμενα  Τα Επεκταμένα Συνδεδεμένα Αντικείμενα
 Τα Τελικά Πλαίσια
Δημιουργία Περιγραφέα για κάθε Πλαίσιο
33
 Ο Περιγραφέας αποτελείται από ένα σύνολο
δομημένων στοιχείων του εγγράφου
 Δομημένο Στοιχείο είναι ένα 3x3 δυαδικό
παράθυρο
 Υπάρχουν συνολικά 29 = 512 δομημένα στοιχεία
b0
b8 b7 b6
b5 b4 b3
b2 b1
Η σειρά εμφάνισης των
εικονοστοιχείων των
Δομημένων Στοιχείων
8
0
2i
j ji
i
L b

 
Το Δομημένο Στοιχείο L142
Δημιουργία Περιγραφέα για Κάθε Πλαίσιο
34
 Ο περιγραφέας του κάθε πλαισίου είναι το
Ιστόγραμμα Εμφάνισης του κάθε Δομημένου
Συστατικού
 Αρχικά ο περιγραφέας έχει μέγεθος ίσο με 510.
 Όλα τα Δομημένα Συστατικά πλην του 1 και του 512
γιατί αυτά αντιστοιχούν σε καθαρά αντικείμενα
φόντου και προσκηνίου.
 Εφαρμόζεται μία τεχνική μείωσης του μεγέθους του
περιγραφέα
 Επιλέγονται αυτά τα Δομημένα Συστατικά που
αυξάνουν την διαχωριστικότητα μεταξύ πλαισίων που
περιέχουν κείμενο και αυτών που δεν περιέχουν.
Feature Standard Deviation Analysis of
Structure Elements (FSDASE)
35
 Υπολογισμός της Τυπικής Απόκλισης των Πλαισίων
που περιέχουν κείμενο για κάθε ένα Δομημένο
Στοιχείο
 Υπολογισμός της Τυπικής Απόκλισης των Πλαισίων
που δεν περιέχουν κείμενο για κάθε ένα Δομημένο
Στοιχείο
 Κανονικοποίηση των δύο παραπάνω μεγεθών
 Αφαιρούμε τα δύο παραπάνω μεγέθη για κάθε ένα
Δομημένο Στοιχείο
 Αυτό που έχει τη μεγαλύτερη τιμή παίρνει την πρώτη
θέση στον καινούργιο περιγραφέα, αυτό που έχει την
δεύτερη μεγαλύτερη τιμή τη δεύτερη θέση κ.τ.λ.
Support Vector Machines
36
 Βασίζονται στην Στατιστική Θεωρία της Μάθησης
 Χρειάζονται δεδομένα εκπαίδευσης
 Χωρίζουν το χώρο που βρίσκονται τα δεδομένα εκπαίδευσης σε
δύο κλάσεις
 Τα δεδομένα εκπαίδευσης θα πρέπει να είναι γραμμικά
διαχωρίσιμα
Support Vector Machines
37
 Εάν δεν είναι, μετασχηματίζεται ο χώρος έτσι ώστε να
είναι γραμμικά διαχωρίσιμα με την βοήθεια των “kernels”
 Στην προτεινόμενη τεχνική χρησιμοποιήθηκε o kernel:
Radial Basis Function (exp{-γ|x-x`|)
 Εφόσον διαχωριστεί ο χώρος με βάση τα δεδομένα
εκπαίδευσης, τα καινούργια δεδομένα καταχωρούνται
αναλόγως που βρίσκονται στο διαχωρίσιμο χώρο
 Η κύρια δυσκολία της εκπαίδευσης των Support Vector
Machines έγκειται στην εύρεση των σωστών παραμέτρων
 Στην προτεινόμενη τεχνική η εύρεση των παραμέτρων
έγινε χρησιμοποιώντας την τεχνική Parameter
Estimation Algorithm που χρησιμοποιείται στις μεθόδους
δυαδικοποίησης
Αξιολόγηση της προτεινόμενης τεχνικής
38
 Χρησιμοποιήθηκε μία γνωστή βάση Εγγράφων –
Εικόνων
 Document Image Database από το University
of Oulu
 Περιέχει 233 έγγραφα – εικόνες ποικίλης μορφής
 Για να αξιολογηθεί η ευελιξία της προτεινόμενης
τεχνικής δημιουργήθηκε μία καινούργια βάση από
την παραπάνω και προστέθηκε Gaussian και
Κρουστικός θόρυβος
Ποσοστό Επιτυχίας για τα Έγγραφα Εκπαίδευσης της Βάσης Oulu
Αξιολόγηση Προτεινόμενης Τεχνικής
80
82
84
86
88
90
92
94
96
98
100
1 31 61 91 121 151 181 211 241 271 301 331 361 391 421 451 481
Π
ο
σ
ο
σ
τ
ό
Ε
π
ι
τ
υ
χ
ί
α
ς
Μέγεθος Περιγραφέα Πλαισίου
39
Ποσοστό Επιτυχίας για τα όλα τα Έγγραφα της Βάσης Oulu
Αξιολόγηση Προτεινόμενης Τεχνικής
40
80
82
84
86
88
90
92
94
96
98
100
1 31 61 91 121 151 181 211 241 271 301 331 361 391 421 451 481
Π
ο
σ
ο
σ
τ
ό
Ε
π
ι
τ
υ
χ
ί
α
ς
Μέγεθος Περιγραφέα Πλαισίου
Ποσοστό Επιτυχίας για τα Έγγραφα Εκπαίδευσης της Βάσης που Περιέχει
Θόρυβο
Αξιολόγηση Προτεινόμενης Τεχνικής
41
80
82
84
86
88
90
92
94
96
98
100
1 31 61 91 121 151 181 211 241 271 301 331 361 391 421 451 481
Π
ο
σ
ο
σ
τ
ό
Ε
π
ι
τ
υ
χ
ί
α
ς
Μέγεθος Περιγραφέα Πλαισίου
Ποσοστό Επιτυχίας για Όλα τα Έγγραφα που περιέχονται στην Βάση με τον
Θόρυβο
Αξιολόγηση Προτεινόμενης Τεχνικής
42
80
82
84
86
88
90
92
94
96
98
100
1 31 61 91 121 151 181 211 241 271 301 331 361 391 421 451 481
Π
ο
σ
ο
σ
τ
ό
Ε
π
ι
τ
υ
χ
ί
α
ς
Μέγεθος Περιγραφέα Πλαισίου
Ο χρόνος ολοκλήρωσης της τεχνικής εντοπισμού κειμένου σε σχέση με το
μέγεθος του περιγραφέα πλαισίου
Αξιολόγηση Προτεινόμενης Τεχνικής
43
10
10.4
10.8
11.2
11.6
12
1 31 61 91 121 151 181 211 241 271 301 331 361 391 421 451 481
Π
ο
σ
ο
σ
τ
ό
Ε
π
ι
τ
υ
χ
ί
α
ς
Μέγεθος Περιγραφέα Πλαισίου
Παράδειγμα 1
44
Αρχικό Έγγραφο - Εικόνα Το Εξαγώγιμο Αποτέλεσμα
Παράδειγμα 2
45
Αρχικό Έγγραφο - Εικόνα Το Εξαγώγιμο Αποτέλεσμα
Παράδειγμα 3
46
Αρχικό Έγγραφο - Εικόνα Το Εξαγώγιμο Αποτέλεσμα
Παράδειγμα 4
47
Αρχικό Έγγραφο - Εικόνα Το Εξαγώγιμο Αποτέλεσμα
Παράδειγμα 5
48
Αρχικό Έγγραφο - Εικόνα Το Εξαγώγιμο Αποτέλεσμα
Παρουσίαση Προτεινόμενης Τεχνικής
 .NET
Framework
 WPF/XAML
 C#
 libSVM
49
Συμπεράσματα
50
 Παρουσιάστηκε μία μέθοδο εύρεσης κειμένου σε έγγραφα
– εικόνες χρησιμοποιώντας τα δομημένα στοιχεία
εγγράφων
 Μέσω μία τεχνητής υπολογίζεται ο κατάλληλος
περιγραφέας
 Με βάση αυτού τα Support Vector Machines
αποφασίζουν εάν ένα πλαίσιο περιέχει κείμενο ή όχι.
 Ο περιγραφέας μπορεί να μειωθεί ή να αυξηθεί αναλόγως
τα όρια της υπολογιστικής ισχύς που διαθέτεται.
 Επίσης αξιολογήθηκε η προτεινόμενη μέθοδος σε μία
βάση την οποία προστέθηκε θόρυβος ώστε να αποδεχθεί
η ευελιξία της.
Με την τεχνική εντοπισμού των λέξεων
Ανάκτηση Εγγράφων - Εικόνων
51
4.
Με την τεχνική εντοπισμού των λέξεων
Η Αρχιτεκτονική του συστήματος Ανάκτησης Εικόνων - Εγγράφων
53
 Αρχικό Έγγραφο
54
 Φίλτρο Μεσαίας
Τιμής
 Δυαδικοποίηση
(Otsu Τεχνική)
55
 Αναγνώριση όλων των Συνδεδεμένων Αντικειμένων (CCs)
 Υπολογισμός του ποιο κοινού ύψους των Συνδεδεμένων
Αντικειμένων που περιέχονται στο κείμενο (CCch)
 Απόρριψη των CCs που έχουνε ύψος κάτω του 70% του
CCch. Έτσι αφαιρούνται τα σημεία στίξης και ο θόρυβος.
 Ανάπτυξη των αριστερών και δεξιών πλευρών κατά 20%
του CCch
 Οι λέξεις αποτελούν τα ενωμένα επικαλυπτόμενα CCs
 Χρησιμοποιώντας
την τεχνική των
Ενωμένων
Συστατικών
Κατάτμηση
Λέξεων
 Width to Height Ratio
 Word Area Density. Το ποσοστό των μαύρων
(αντικείμενο) εικονοστοιχείων που περιέχονται στο
ορθογώνιο πλαίσιο της λέξης.
 Center of Gravity. Η ευκλείδεια απόσταση από το κέντρο
βαρύτητας μέχρι την πάνω αριστερή γωνία του ορθογώνιου
πλαισίου της λέξης:
(1,0) (0,1)
(0,0) (0,0)
,x y
M M
C C
M M
 
( , )
qp
pq
x y
x y
M f x y
width height
  
   
   

56
 Vertical Projection. Τα πρώτα είκοσι (20) βάρη του
διακριτού μετασχηματισμού συνημίτονου (DCT) της λείας
και εξομαλυμένης κάθετης προβολής.
 Αρχική Εικόνα
 Η Κάθετη Προβολή
 Εξομαλυμένη και
Κανονικοποιημένη
Προβολή
57
 Top – Bottom Shape Projections. Ένα διάνυσμα 50 στοιχείων
 Τα πρώτα 25 στοιχεία αποτελούνται από τα πρώτα 25 βάρη των διακριτού
μετασχηματισμού συνημίτονου της λείας και εξομαλυμένης Προβολής του Πάνω
Σχήματος
 Τα υπόλοιπα 25 στοιχεία αποτελούνται από τα πρώτα 25 βάρη του διακριτού
μετασχηματισμού συνημίτονου της λείας και εξομαλυμένης Προβολής του Κάτω
Σχήματος
58
 Upper Grid Features είναι ένα δέκα διαστάσεων
διάνυσμα με δυαδικές τιμές, το οποίο υπολογίζεται
από το πάνω μέρος της λέξης.
 Down Grid Features είναι ένα δέκα διαστάσεων
διάνυσμα με δυαδικές τιμές, το οποίο υπολογίζεται
από το κάτω μέρος της λέξης.
59
[0,0,0,1195
,0,0,0,0,0,0]
[0,0,0,1 ,0,0,0,0,0,0]
[0,0,0,0 ,0,0,0, 598 , 50 ,
33 ]
[0,0,0,0 ,0,0,0,1,1,0]
60
61
Η Δομή του
Περιγραφέα
 Ο χρήστης πληκτρολογεί μία λέξη - ερώτημα
 Το προτεινόμενο σύστημα δημιουργεί μία εικόνα της
παραπάνω λέξης με ύψος ίσο με το μέσο ύψος όλων των
λέξεων-πλαισίων που υπολογίστηκαν στο στάδιο
Κατάτμηση Λέξης στην Offline διεργασία.
 Στην πειραματική βάση εγγράφων το μέσο ύψος είναι 50
 Το όνομα της γραμματοσειράς της Εικόνας – Ερώτημα
είναι Arial
 Η εξομαλυσμένη και κανονικοποιημένη διαδικασία των
χαρακτηριστικών εξαλείφει τις μικρές διαφορές που
υπάρχουν μεταξύ των διαφόρων γραμματοσειρών
62
 100 εικόνες – έγγραφα δημιουργήθηκαν τεχνητά
από διάφορα κείμενα
 Έπειτα προστέθηκε Gaussian και Κρουστικός
Θόρυβος (40%).
64
 Χρησιμοποιήθηκαν
τα μετρικά μεγέθη:
Average Precision
και NMRR
 30 αναζητήσεις σε
100 έγγραφα εικόνες
 Γραμματοσειρά της
εικόνας ερώτημα
είναι «Arial”
65
Mean Average
Precision:
99,519%
ANMRR:
0.0029%
75
80
85
90
95
100
1 5 9 13 17 21 25 29
Ανακτήσεις
Average Precision
0
0.2
0.4
0.6
0.8
1
1 5 9 13 17 21 25 29
Ανακτήσεις
NMRR
Average Precision NMRR
Mean Average Precision:
58,421% ANMRR: 0,4032
66
0
10
20
30
40
50
60
70
80
90
100
1 5 9 13 17 21 25 29
Ανακτήσεις
Average Precision
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1 5 9 13 17 21 25 29
Ανακτήσεις
NMRR
Average Precision NMRR
Mean Average Precision:
99,611% ANMRR: 0,0017
67
84
86
88
90
92
94
96
98
100
1 5 9 13 17 21 25 29
Ανακτήσεις
Average Precision
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1 5 9 13 17 21 25 29
Ανακτήσεις
NMRR
Average Precision NMRR
Mean Average Precision:
99,519% ANMRR: 0,0029
68
0
10
20
30
40
50
60
70
80
90
100
1 5 9 13 17 21 25 29
Αναζητήσεις
Average Precision
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1 5 9 13 17 21 25 29
Αναζητήσεις
NMRR
69
 Visual Studio
2008
 Microsoft .NET
Framework 2.0
 C# Language
 Microsoft SQL
Server 2005
http://orpheus.ee.duth.gr/irs2_5/
 Η λέξη – ερώτημα δίνεται από το χρήστη σε μορφή
κειμένου και μετατρέπεται σε εικόνα
 Το προτεινόμενο σύστημα εξάγει 9 ισχυρά
χαρακτηριστικά τα οποία σχηματίζουν έναν
περιγραφέα για κάθε εικόνα - λέξη.
 Τα χαρακτηριστικά αυτά περιγράφουν ικανοποιητικά
το σχήμα της λέξης ενώ ταυτόχρονα εξαλείφουν τις
μικρές διαφορές λόγω του θορύβου, μεγέθους και
τύπου γραμματοσειράς.
 Με βάση τα πειραματικά αποτελέσματα το
προτεινόμενο σύστημα αποδίδει καλύτερα από ένα
εμπορικό OCR πακέτο.
70
Στα πρότυπα των περιγραφέων σχήματος του
MPEG-7
Συνεπτυγμένος Περιγραφέας Σχήματος
71
5.
MPEG - 7
72
 Ο σκοπός του είναι να καθορίσει ένα πρότυπο περιγραφής
διαφόρων τύπων πολυμεσικής πληροφορίας
 Ενώ τα άλλα πρότυπα (MPEG-1, MPEG-2, MPEG-4)
αντιπροσωπεύουν το περιεχόμενο (the bits), το MPEG-7
αντιπροσωπεύει την πληροφορία που διαχέεται στο
περιεχόμενο (the bits about the bits)
 Επιπλέον, καθορίζει ένα πρότυπο αποθήκευσης (βάσεις
δεδομένων) των περιγραφέων
 Οι περιγραφείς που περιέχει υποστηρίζουν μία μεγάλη
ποικιλία μορφών δεδομένων όπως ήχος, ομιλία, εικόνες,
γραφικά, 3D μοντέλα, συνθετικό ήχο, βίντεο κ.τ.λ.
Αρχές των MPEG-7 Περιγραφέων
73
 Καθορίζει τις αρχές που θα πρέπει να υπακούν οι
περιγραφείς
 Καλή Ακρίβεια στην Ανάκτηση
 Ευρεία Εφαρμογή
 Συνεπτυγμένη Μορφή
Ο υπολογισμός μπορεί πολύ εύκολα να παραλληλιστεί καθώς κάθε
χαρακτηριστικό υπολογίζεται ξεχωριστά
Το μπλοκ διάγραμμα υπολογισμού του CSPD
74
Χαρακτηριστικά
75
 Width To Height Ratio:
min{ , }
max{ , }
W H
WHR
W H

 Vertical – Horizontal Projections. Είναι ένα διάνυσμα 20 διαστάσεων
 Οι πρώτες 10 διαστάσεις αποτελούνται από τα πρώτα 10 κβαντισμένα βάρη του
διακριμένου μετασχηματισμού συνημίτονου της λείας και κανονικοποίημένης
Κάθετης Προβολής
 Τα υπόλοιπα 10 στοιχεία αποτελούνται από τα πρώτα 10 κβαντισμένα βάρη του
διακριμένου μετασχηματισμού συνημίτονου της λείας και εξομαλυμένης
Οριζόντιας Προβολής
76
 Top – Bottom Shape Projections. Ένα διάνυσμα 20 διαστάσεων
 Οι πρώτες 10 διαστάσεις αποτελούνται από τα πρώτα 10 κβαντισμένα βάρη του
διακριμένου μετασχηματισμού συνημίτονου της λείας και κανονικοποίημένης
Προβολής του Πάνω Σχήματος
 Τα υπόλοιπα 10 στοιχεία αποτελούνται από τα πρώτα 10 κβαντισμένα βάρη του
διακριμένου μετασχηματισμού συνημίτονου της λείας και εξομαλυμένης
Προβολής του Κάτω Σχήματος
77
Κβαντοποίηση Περιγραφέα
78
 Μειώνεται αρκετά το μέγεθος του περιγραφέα χωρίς να
επηρεάζονται τα αποτελέσματα του.
 Το MPEG-7 κβαντίζει αρκετούς από τους περιγραφείς που
περιέχει
 Επειδή οι τιμές συγκεντρώνονται σε μικρές περιοχές θα πρέπει να
κβαντιστούνε μη – γραμμικά
 Κάθε χαρακτηριστικό θα πρέπει να κβαντιστεί ξεχωριστά καθώς
δεν σχετίζονται μεταξύ τους
 Η κβαντοποίηση πραγματοποιήθηκε με τον ασαφή αλγόριθμο
Gustafson – Kessel
 Κάθε διάσταση του περιγραφέα αντιπροσωπεύεται με 3bits.
 Οπότε το συνολικό μέγεθος είναι 3x41 = 123 bits
79
 Επιλέγουμε ένα πλήθος εικόνων που περιέχουν σχημάτα
και εξάγουμε από αυτά τον περιγραφέα.
 Επιλέχθηκαν αυθαίρετα 1500 σχήματα και από αυτά
χρησιμοποιήθηκαν 1500 δείγματα για το Width to Height
Ratio και 15000 δείγματα (10x1500) για κάθε από τα
υπόλοιπα χαρακτηριστικά
 Ορίσθηκε το πλήθος των κλάσεων του Gustafson –
Kessel ίσο με 8 (23)
 O ασαφής αλγόριθμος Gustafson – Kessel δίνει 8
κέντρα κλάσεων και τους αντίστοιχους πίνακες Διασπορών
 Μετατρέπονται οι συνεχές τιμές του σε δυαδικές τιμές
εύρους [000, 1111] δυαδικές ή σε ακέραιες τιμές εύρους
[0,7]
Κβαντοποίηση Περιγραφέα
Πίνακας Κβαντοποίησης
80
Width to Height (1st bin)
Value 000 = 0 001 = 1 010 = 2 011 = 3 100 = 4 101 = 5 110 = 6 111 = 7
Center 0.194 0.358 0.478 0.606 0.733 0.815 0.89 0.975
A 25.013 26.669 30.004 31.839 35.785 52.873 47.896 58.456
Vertical Projection (2nd – 11th bin)
Value 000 = 0 001 = 1 010 = 2 011 = 3 100 = 4 101 = 5 110 = 6 111 = 7
Center 0.504 -0.215 -0.09 -0.031 0.004 0.069 0.392 1.412
A 6.438 17.255 39.173 70.481 93.974 27.642 4.586 61.264
Horizontal Projection (12th – 21th bin)
Value 000 = 0 001 = 1 010 = 2 011 = 3 100 = 4 101 = 5 110 = 6 111 = 7
Center -0.456 -0.194 -0.09 -0.035 0.003 0.064 0.252 1.414
A 9.781 21.917 47.372 76.465 90.791 38.51 9.305 6984.45
Top Shape Projection (22th – 31th bin)
Value 000 = 0 001 = 1 010 = 2 011 = 3 100 = 4 101 = 5 110 = 6 111 = 7
Center -0.438 -0.126 -0.049 -0.014 0.003 0.054 0.505 1.413
A 4.204 24.39 66.304 133.712 162.913 31.417 3.587 94.665
Bottom Shape Projection(32th – 41th bin)
Value 000 = 0 001 = 1 010 = 2 011 = 3 100 = 4 101 = 5 110 = 6 111 = 7
Center -0.677 -0.136 -0.003 0.079 0.206 0.436 0.885 1.413
A 4.045 15.185 51.367 31.653 21.257 11.209 6.465 155.284
Ως Επέκταση του Schema των MPEG – 7 Οπτικών Περιγραφέων
Schema του CSPD
81
Μέτρηση Ομοιότητας
82
 Προτείνεται ως Μέτρηση Ομοιότητας την weight Minkowski
L1:
            
3 10
, 1 1 10 1 10 1
0 1
10 11Q S k n k n
k n
D Q S n Q S     
 
      
 Η παραπάνω απόσταση χρησιμοποιεί την ικανότητα του DCT να
αποθηκεύει περισσότερη πληροφορία στα πρώτα βάρη
 Πειραματικές Μετρήσεις έδειξαν ότι η προτεινόμενη απόσταση
δίνει καλύτερα αποτελέσματα από ότι οι αποστάσεις:
 normal Minkowski L1
 Minkowski L2 (Euclidian Distance)
 Bhattacharyya
 The non-binary Tanimoto coefficient
Αλγόριθμος Ανάδρασης Συνάφειας
83
 Υλοποιήθηκε ένας αλγόριθμος Ανάδρασης Συνάφειας που στηρίζεται στα
Support Vector Machines
 Αρχικά το σύστημα παρουσιάζει τα αποτελέσματα αναζήτησης με βάση το
μετρητή ομοιότητας.
 Ο χρήστης επιλέγει ποια θεωρεί σωστά και ποια όχι
 Οι περιγραφείς των σχημάτων που επέλεξε ο χρήστης χρησιμοποιούνται ως
δεδομένα εκπαίδευσης των Support Vector Machines
 Κανονικά, η έξοδος των Support Vector Machines είναι δυαδική, η οποία
καθορίζεται από το πρόσημο της συνάρτησης απόφασης
 Είναι πιθανόν να υπολογιστεί η συνάρτηση συμμετοχής ενός δεδομένου στην μία
κλάση και κατά συνέπεια η ομοιότητα του κανονικοποιώντας την συνάρτηση
απόφασης
Αξιολόγηση Περιγραφέα
85
 Τρείς διαφορετικές βάσεις
 MPEG-7 CE1 Set B. Αποτελείται από 1400
σχήματα.
 20 σελίδες-εικόνες από τα Γραπτά του George
Washington από τη Βιβλιοθήκη του Κογκρέσου.
Αποτελείται από 4847 χειρόγραφες λέξεις
 Ελληνικά χειρόγραφα κείμενα που περιέχουν 173
λέξεις από διαφορετικούς ανθρώπους
Τα κίτρινα πλαίσια υλοποιήθηκαν μόνο για τα χειρόγραφα έγγραφα
H δομή του υλοποιημένου συστήματος ανάκτησης
Παρουσίαση Προτεινόμενης Τεχνικής
87
 .NET
Framework

WPF/XAML
 C#
 libSVM
Παρουσίαση Προτεινόμενης Τεχνικής
88
.NET
Framework

WPF/XAML
 C#
 libSVM
89
Mean Average
Precision για την
Κάθετη Προβολή
Mean Average
Precision για την
Οριζόντια Προβολή
Mean Average
Precision για το
Πάνω Σχήμα
Mean Average
Precision για το
Κάτω Σχήμα
ANMRR για την
Κάθετη Προβολή
ANMRR για την
Οριζόντια Προβολή
ANMRR για το
Πάνω Σχήμα
ANMRR για το
Κάτω Σχήμα
0
20
40
60
80
100
1 6 11 16 21 26 31 36 41 46
0
0.2
0.4
0.6
0.8
1
1 6 11 16 21 26 31 36 41 46
0
20
40
60
80
100
1 6 11 16 21 26 31 36 41 46
0
0.2
0.4
0.6
0.8
1
1 6 11 16 21 26 31 36 41 46
0
0.2
0.4
0.6
0.8
1
1 6 11 16 21 26 31 36 41 46
0
0.2
0.4
0.6
0.8
1
1 6 11 16 21 26 31 36 41 46
0
20
40
60
80
100
1 6 11 16 21 26 31 36 41 46
0
20
40
60
80
100
1 6 11 16 21 26 31 36 41 46
Πείραμα Κβαντοποίησης
90
0
10
20
30
40
50
60
70
80
90
100
0 10 20 30 40 50 60 70 80 90 100
Recall/Precision Γράφημα
1 bit
2 bits
3 bits
4 bits
5 bits
0
0.2
0.4
0.6
0.8
1
1 bit 2 bits 3 bits 4 bits 5 bits
Αριθμός bits Κβαντοποίησης
ANMRR
Πείραμα Μετρητή Ομοιότητας
91
0
20
40
60
80
100
0 10 20 30 40 50 60 70 80 90 100
Recall/Precision Γράφημα
Weighted Minkowski L1
Minkowski L1
Minkowski L2
Bhattacharyya
Tanimoto
0.2
0.3
0.4
0.5
Weighted
Minkowski L1
Minkowski L1 Minkowski L2 Bhattacharyya Tanimoto
ANMRR
Πείραμα στην MPEG-7 CE1 Set B βάση
σχήματος
92
0
20
40
60
80
100
0 10 20 30 40 50 60 70 80 90 100
Recall/Precision Γράφημα
Initial Results
1st RF Iteration
2nd RF Iteration
0
0.1
0.2
0.3
0.4
Initial Results 1st RF Iteration 2nd RF Iteration
ANMRR
Πείραμα στις Χειρόγραφες Λέξεις του George
Washington
93
0
20
40
60
80
100
0 10 20 30 40 50 60 70 80 90 100
Recall/Precision Γράφημα
Initial Results
1st RF Iteration
2nd RF Iteration
0
0.1
0.2
0.3
0.4
Initial Results 1st RF Iteration 2nd RF Iteration
ANMRR
Ελληνικά Χειρόγραφα
94
0
20
40
60
80
100
0 10 20 30 40 50 60 70 80 90 100
Recall/Precision Γράφημα
Initial Results
1st RF Iteration
2nd RF Iteration
0
0.1
0.2
0.3
0.4
0.5
0.6
Initial Results 1st RF Iteration 2nd RF Iteration
ANMRR
Υπολογιστικό Κόστος
95
 Windows
Platform
 Intel Core 2
6400 CPU
 Χρησιμοποιήθηκαν
και οι δύο πυρήνες
του επεξεργαστή
Ο χρόνος υπολογισμού του προτεινόμενου περιγραφέα για 1400 σχήματα
Ολικός χρόνος υπολογισμού του
προτεινόμενου περιγραφέα
Μέσος χρόνος υπολογισμού του προτεινόμενου
περιγραφέα για κάθε σχήμα
4396 milliseconds 3.14 milliseconds
Συμπεράσματα
96
 Παρουσιάστηκε ένας περιγραφέας σχήματος
 Έχει πολύ μικρό μέγεθος (μόνο 123 bits)
 Έχει πολύ μικρό υπολογιστικό κόστος
 Έχει ευρεία εφαρμογής χωρίς να περιορίζεται η
ακρίβεια της ανάκτησης
Δημοσιεύσεις
 K .Zagoris, N. Papamarkos and I. Koustoudis, Color
Reduction using the combination of the Kohonen Self-
Organized Feature Map and the Gustafson-Kessel fuzzy
algorithm. International Conference on Machine Learning
and Data Mining MLDM´2007, 2007.
 Konstantinos Zagoris, Nikos Papamarkos, Christodoulos
Chamzas: Web Document Image Retrieval System Based
on Word Spotting. ICIP 2006: 477-480
 K. Zagoris, E. Kavallieratou and N. Papamarkos,
"Developing Document Image Retrieval System", "IADIS
International Conference on Computer Graphics and
Visualization 2008 ", July 22 to July 27, 2008, Amsterdam,
The Netherlands.
 Konstantinos Zagoris, Savvas A. Chatzichristofis, Nikos
Papamarkos and Yiannis S. Boutalis, « img(Anaktisi): A
Web Content Based Image Retrieval System», 2nd
International Workshop on Similarity Search and
Applications, Prague, Czech Republic, 2009.
 Konstantinos Zagoris and Nikos Papamarkos, “Text
Extraction using Document Structure Features and Support
Vector Machines”, 2009 IEEE International Conference on
Image Processing, Cairo, Egypt , November 7-11, 2009.
Έχει σταλεί για πιθανή δημοσίευση
 Konstantinos Zagoris, Nikos Papamarkos, Ioannis
Koustoudis: Color Reduction using the Combination
of the Kohonen Self-Organized Feature Map and
the Gustafson-Kessel Fuzzy Algorithm. Trans.
MLDM 1(1): 31-46 (2008)
 S. A. Chatzichristofis, K Zagoris, Y. S. Boutalis and
N. Papamarkos. «Accurate image retrieval based on
compact composite descriptors and relevance
feedback information.” International Journal of
Pattern Recognition and Artificial Intelligence
(IJPRAI), Έχει γίνει δεκτή για δημοσίευση, 2009.
 Konstantinos Zagoris, Kavallieratou Ergina and
Nikos Papamarkos. «A Document Image Retrieval
System». Engineering Applications of Artificial
Intelligence. Έχει σταλεί για πιθανή δημοσίευση.
 Konstantinos Zagoris and Nikos Papamarkos.” Text
Localization using Document Structure Elements
and Support Vector Machines”, Έχει σταλεί για πιθανή
δημοσίευση.
 Konstantinos Zagoris, Kavallieratou Ergina and
Nikos Papamarkos, “Image Retrieval Systems
Based On Compact Shape Descriptor and
Relevance Feedback Information”, Visual
Communication and Image Representation, Έχει
σταλεί για πιθανή δημοσίευση.
97
Συνέδρια Περιοδικά
Content and Metadata Based Image Document Retrieval (in Greek)

Weitere ähnliche Inhalte

Ähnlich wie Content and Metadata Based Image Document Retrieval (in Greek)

Θεματική Μοντελοποίηση και Σύστημα Συστάσεων Απαιτήσεων Λογισμικού με χρήση Μ...
Θεματική Μοντελοποίηση και Σύστημα Συστάσεων Απαιτήσεων Λογισμικού με χρήση Μ...Θεματική Μοντελοποίηση και Σύστημα Συστάσεων Απαιτήσεων Λογισμικού με χρήση Μ...
Θεματική Μοντελοποίηση και Σύστημα Συστάσεων Απαιτήσεων Λογισμικού με χρήση Μ...ISSEL
 
Στεργιάδης Εμμανουήλ
Στεργιάδης Εμμανουήλ Στεργιάδης Εμμανουήλ
Στεργιάδης Εμμανουήλ ISSEL
 
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...ISSEL
 
Stelios poulakakis daktylidis diploma thesis presentation
Stelios poulakakis daktylidis diploma thesis presentationStelios poulakakis daktylidis diploma thesis presentation
Stelios poulakakis daktylidis diploma thesis presentationISSEL
 
Lelis Αthanasios
Lelis ΑthanasiosLelis Αthanasios
Lelis ΑthanasiosISSEL
 
Ifigeneia Theodoridou
Ifigeneia TheodoridouIfigeneia Theodoridou
Ifigeneia TheodoridouISSEL
 
Γεώργιος Κορδοπάτης-Ζήλος
Γεώργιος Κορδοπάτης-ΖήλοςΓεώργιος Κορδοπάτης-Ζήλος
Γεώργιος Κορδοπάτης-ΖήλοςISSEL
 
Theofilos Georgiadis: Library recommendation system for the reuse of software...
Theofilos Georgiadis: Library recommendation system for the reuse of software...Theofilos Georgiadis: Library recommendation system for the reuse of software...
Theofilos Georgiadis: Library recommendation system for the reuse of software...Manos Tsardoulias
 
Παρουσίαση της ημερίδας - ΑΠΟΤΥΠΩΜΑ LASER
Παρουσίαση της ημερίδας - ΑΠΟΤΥΠΩΜΑ LASERΠαρουσίαση της ημερίδας - ΑΠΟΤΥΠΩΜΑ LASER
Παρουσίαση της ημερίδας - ΑΠΟΤΥΠΩΜΑ LASERGeorge Livanos
 
Γεροκώστα
ΓεροκώσταΓεροκώστα
ΓεροκώσταISSEL
 
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...ISSEL
 
Evangelos Papathomas: Semantic Code Search in Software Repositories using Neu...
Evangelos Papathomas: Semantic Code Search in Software Repositories using Neu...Evangelos Papathomas: Semantic Code Search in Software Repositories using Neu...
Evangelos Papathomas: Semantic Code Search in Software Repositories using Neu...Manos Tsardoulias
 
Evangelos papathomas diploma thesis presentation
Evangelos papathomas diploma thesis presentationEvangelos papathomas diploma thesis presentation
Evangelos papathomas diploma thesis presentationISSEL
 
Image Inpainting Detection through Artificial Intelligence Techniques
Image Inpainting Detection through Artificial Intelligence TechniquesImage Inpainting Detection through Artificial Intelligence Techniques
Image Inpainting Detection through Artificial Intelligence TechniquesISSEL
 
Εντοπισμός του Image Inpainting με Μεθόδους Τεχνητής Νοημοσύνης
Εντοπισμός του Image Inpainting με Μεθόδους Τεχνητής ΝοημοσύνηςΕντοπισμός του Image Inpainting με Μεθόδους Τεχνητής Νοημοσύνης
Εντοπισμός του Image Inpainting με Μεθόδους Τεχνητής ΝοημοσύνηςISSEL
 
Σωτήρης Μπέης
Σωτήρης ΜπέηςΣωτήρης Μπέης
Σωτήρης ΜπέηςISSEL
 
Papatzelos Spiridon
Papatzelos SpiridonPapatzelos Spiridon
Papatzelos SpiridonISSEL
 
Γκιλίρης Ιωάννης 7419
Γκιλίρης Ιωάννης 7419Γκιλίρης Ιωάννης 7419
Γκιλίρης Ιωάννης 7419ISSEL
 
Thesis.Net Framework Training
Thesis.Net Framework TrainingThesis.Net Framework Training
Thesis.Net Framework Trainingpdalianis
 

Ähnlich wie Content and Metadata Based Image Document Retrieval (in Greek) (20)

Θεματική Μοντελοποίηση και Σύστημα Συστάσεων Απαιτήσεων Λογισμικού με χρήση Μ...
Θεματική Μοντελοποίηση και Σύστημα Συστάσεων Απαιτήσεων Λογισμικού με χρήση Μ...Θεματική Μοντελοποίηση και Σύστημα Συστάσεων Απαιτήσεων Λογισμικού με χρήση Μ...
Θεματική Μοντελοποίηση και Σύστημα Συστάσεων Απαιτήσεων Λογισμικού με χρήση Μ...
 
Στεργιάδης Εμμανουήλ
Στεργιάδης Εμμανουήλ Στεργιάδης Εμμανουήλ
Στεργιάδης Εμμανουήλ
 
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
 
Stelios poulakakis daktylidis diploma thesis presentation
Stelios poulakakis daktylidis diploma thesis presentationStelios poulakakis daktylidis diploma thesis presentation
Stelios poulakakis daktylidis diploma thesis presentation
 
Lelis Αthanasios
Lelis ΑthanasiosLelis Αthanasios
Lelis Αthanasios
 
Ifigeneia Theodoridou
Ifigeneia TheodoridouIfigeneia Theodoridou
Ifigeneia Theodoridou
 
Γεώργιος Κορδοπάτης-Ζήλος
Γεώργιος Κορδοπάτης-ΖήλοςΓεώργιος Κορδοπάτης-Ζήλος
Γεώργιος Κορδοπάτης-Ζήλος
 
Theofilos Georgiadis: Library recommendation system for the reuse of software...
Theofilos Georgiadis: Library recommendation system for the reuse of software...Theofilos Georgiadis: Library recommendation system for the reuse of software...
Theofilos Georgiadis: Library recommendation system for the reuse of software...
 
Παρουσίαση της ημερίδας - ΑΠΟΤΥΠΩΜΑ LASER
Παρουσίαση της ημερίδας - ΑΠΟΤΥΠΩΜΑ LASERΠαρουσίαση της ημερίδας - ΑΠΟΤΥΠΩΜΑ LASER
Παρουσίαση της ημερίδας - ΑΠΟΤΥΠΩΜΑ LASER
 
Γεροκώστα
ΓεροκώσταΓεροκώστα
Γεροκώστα
 
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
 
Evangelos Papathomas: Semantic Code Search in Software Repositories using Neu...
Evangelos Papathomas: Semantic Code Search in Software Repositories using Neu...Evangelos Papathomas: Semantic Code Search in Software Repositories using Neu...
Evangelos Papathomas: Semantic Code Search in Software Repositories using Neu...
 
Evangelos papathomas diploma thesis presentation
Evangelos papathomas diploma thesis presentationEvangelos papathomas diploma thesis presentation
Evangelos papathomas diploma thesis presentation
 
Image Inpainting Detection through Artificial Intelligence Techniques
Image Inpainting Detection through Artificial Intelligence TechniquesImage Inpainting Detection through Artificial Intelligence Techniques
Image Inpainting Detection through Artificial Intelligence Techniques
 
Εντοπισμός του Image Inpainting με Μεθόδους Τεχνητής Νοημοσύνης
Εντοπισμός του Image Inpainting με Μεθόδους Τεχνητής ΝοημοσύνηςΕντοπισμός του Image Inpainting με Μεθόδους Τεχνητής Νοημοσύνης
Εντοπισμός του Image Inpainting με Μεθόδους Τεχνητής Νοημοσύνης
 
Σωτήρης Μπέης
Σωτήρης ΜπέηςΣωτήρης Μπέης
Σωτήρης Μπέης
 
ThesisPresentation
ThesisPresentationThesisPresentation
ThesisPresentation
 
Papatzelos Spiridon
Papatzelos SpiridonPapatzelos Spiridon
Papatzelos Spiridon
 
Γκιλίρης Ιωάννης 7419
Γκιλίρης Ιωάννης 7419Γκιλίρης Ιωάννης 7419
Γκιλίρης Ιωάννης 7419
 
Thesis.Net Framework Training
Thesis.Net Framework TrainingThesis.Net Framework Training
Thesis.Net Framework Training
 

Content and Metadata Based Image Document Retrieval (in Greek)

  • 1. ΑΝAΚΤΗΣΗ ΕΓΓΡAΦΩΝ ΒAΣΕΙ ΠΕΡΙΕΧΟΜEΝΟΥ ΚΑΙ MPEG-7 ΜΕΤΑΔΕΔΟΜEΝΩΝ Διδακτορική Διατριβή: Κωνσταντίνος Ζαγόρης2009 ΔΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΥΣΗΣ ΗΛΕΚΤΡΙΚΩΝ ΚΥΚΛΩΜΑΤΩΝ
  • 2. Περιεχόμενα Διατριβής 2  Μείωση των Χρωματικών Αποχρώσεων Συνδυάζοντας το Kohonen Self-Organized Feature Map και τον Ασαφή Αλγόριθμο Gustafson – Kessel  Αλγόριθμος Ανάδρασης με βάση τη Συνάφεια  Εντοπισμός Κειμένου σε Εικόνες Έγραφα Χρησιμοποιώντας τα Δομικά Συστατικά των Εγγράφων και Support Vector Machines  Ανάκτηση Εγγράφων - Εικόνων Με την Τεχνική Εντοπισμού των Λέξεων  Συνεπτυγμένος Περιγραφέας Σχήματος Στα πρότυπα των Περιγραφέων Σχήματος του MPEG-7
  • 3. Ανάκτηση Εικόνων με βάσει το Περιεχόμενο 3  H Αναζήτηση και Παρουσίαση Παρόμοιων Εικόνων από μία Βάση Δεδομένων Εικόνων που είναι Σχετικές με το Αίτημα του Χρήστη  Χωρίς Οποιαδήποτε Επιπλέον Πληροφορία εκτός από αυτήν που Προέρχεται από την Ανάλυση των Εικονοστοιχείων της Εικόνας
  • 4. Το Γενικό Πρόβλημα της Ανάκτησης Εικόνας 4  Η Ποιότητα Ανάκτησης (Ακρίβεια – Ανάκληση)  Η Ταχύτητα Ανάκτησης (Εξαγωγή Χαρακτηριστικών - Δημιουργία Περιγραφέα – Σύγκριση Περιγραφέα)  Μέγεθος Περιγραφέα (κόστος αποθήκευσης και κατανάλωσης μνήμης)
  • 5. Γενικό Διάγραμμα Συστήματος Ανάκτησης Εικόνας 5
  • 6. Συνδυάζοντας το Kohonen Self-Organized Feature Map και τον ασαφή αλγόριθμο Gustafson – Kessel ΜΕΙΩΣΗ ΤΩΝ ΧΡΩΜΑΤΙΚΩΝ ΑΠΟΧΡΩΣΕΩΝ 6 1.
  • 7. Ορισμός του Προβλήματος 7  Η κβαντοποίηση των χρωματικών αποχρώσεων είναι σημαντικό και χρήσιμο εργαλείο για την συμπίεση, εμφάνιση και την μετάδοση μίας εικόνας  Η μείωση των χρωματικών αποχρώσεων μίας εικόνας είναι σημαντική διαδικασία για την διαδικασία κατάτμηση μίας εικόνας  Προτείνεται μία Color Clustering τεχνική, η οποία αποτελείται από τον συνδυασμό ενός νευρωνικού δικτύου και ενός ασαφούς αλγορίθμου
  • 8. Παράδειγμα Μείωσης των Χρωματικών Αποχρώσεων 8 Αρχική Εικόνα RGB χρωματική κατανομή Εικόνα με μόνο 20 κύρια χρώματα Κατανομή των 20 χρωμάτων
  • 9. Διάγραμμα της Προτεινόμενης Τεχνικής 9 Αρχική Εικόνα Δειγματοληψία Ορισμός του Πλήθους των Τελικών Χρωμάτων Εκπαίδευση του KSOFM Ταξινόμηση με τον KSOFM Aρχικοποίηση του GK με τα εξαγόμενα αποτελέσματα του KSOFM Εκτέλεση του GK Tελική Ταξινόμηση με τον GK Τελική Εικόνα
  • 10. Μορφοκλασματική Δειγματοληψία – Καμπύλη του Hilbert 10 ΠΛΕΟΝΕΚΤΗΜΑΤΑ  Μικρός αριθμός των εικονοστοιχείων – δειγμάτων εκπαίδευσης  Η σχέση των γειτονικών εικονοστοιχείων διατηρείτε
  • 11. j k jky arg min x w  Kohonen Self Organized Featured Map (KSOFM)  Ο λογάριθμος εκπαίδευσης του KSOFM στηρίζεται στην Ανταγωνιστική Εκμάθηση 11 X1 Xk X3 X2 Yj Y3 Y2 Y1 Competitive LayerInput Layer ...... ...... Wj1 Wj2 Wj3 Wjk  Ο νικητής νευρώνας εξόδου μεταβάλουν τα βάρη των συνδέσεων τους:  jk k jkw n x w  
  • 12. Ασαφής Αλγόριθμος Gustafson - Kessel  Ο ασαφής αλγόριθμος Gustafson – Kessel (GK) είναι μια προέκταση του ασαφή C-Mean αλγορίθμου.  Δημιουργεί ελλειψοειδείς κλάσεις χρησιμοποιώντας έναν πίνακα συνδιακύμανσης  Στηρίζεται στην Mahalanobis απόσταση 12    2 T ik k i i k id x v A x v  
  • 13. 13 Παράδειγμα 1 Original Image 22410 colors FCM 4 colors KSOFM 4 colors Median Cut 4 colors KSOFM – GK 4 colors
  • 14. 15 Παράδειγμα 2 Original Image 33784 colors FCM 5 colors KSOFM 5 colors Median Cut 5 colors KSOFM – GK 5 colors
  • 15. 16 Παράδειγμα 3 Original Image 31655 colors FCM 4 colors KSOFM 4 colors Median Cut 4 colors KSOFM – GK 4 colors
  • 16. Συμπεράσματα 18  Παρουσιάστηκε μία υβριδική (neuro-fuzzy) τεχνική μείωσης των χρωματικών αποχρώσεων μίας εικόνας  Έχει την ικανότητα να διατηρεί τα κύρια χρώματα μια εικόνας ακόμα και αν το πλήθος αυτών είναι πολύ μικρό  Ενοποιεί περιοχές που έχουν παρόμοια χρώματα  Μπορεί να θεωρεί ως μία ισχυρή τεχνική κατάτμησης ψηφιακής εικόνας
  • 17. Για εικόνες που περιέχουν πολλά χρώματα και απεικονίζουν σκηνές Αλγόριθμος Ανάδρασης με βάση τη Συνάφεια 19 2.
  • 18. Αλγόριθμος Ανάδρασης Συνάφειας 20  Πολλές φορές ο χρήστης δεν ξέρει τι ακριβώς ψάχνει αλλά έχει μία γενική ιδέα  Ο χρήστης αλληλοεπιδρά με το Σύστημα Ανάκτησης  Το σύστημα ανάκτησης του δίνει ένα σύνολο αποτελεσμάτων  Ο χρήστης επιλέγει εκείνα που τον ενδιαφέρουν  Το Σύστημα Ανάκτησης χρησιμοποιεί αυτήν την πληροφορία για να βελτιώσει τα αρχικά αποτελέσματα της ανάκτησης
  • 19. Προτεινόμενο Σύστημα Ανάδρασης Συνάφειας για Εικόνες Φύσης 21  Στηρίζεται στους τέσσερις παρόμοιους με τους MPEG-7 περιγραφείς που προτείνονται στην εργασία «ACCURATE IMAGE RETRIEVAL BASED ON COMPACT COMPOSITE DESCRIPTORS AND RELEVANCE FEEDBACK INFORMATION». Αυτοί είναι:  Color and Edge Directivity Descriptor (CEDD)  Fuzzy Color and Texture Histogram (FCTH)  Και οι Compact μορφές τους (C.CEDD, C.FCTH)  Περιέχουν πληροφορίες υφής και χρώματος.
  • 20. Η Διάταξη του Προτεινόμενου Αλγορίθμου 22 Ο Χρήστης Επιλέγει την Εικόνα Ερώτημα Ο Περιγραφέας της Εικόνας Ερώτημα Εμφάνιση των Αποτελεσμάτων Ανάκτησης στο Χρήστη Αρχικοποίηση του διανύσματος W Ο Χρήστης Επιλέγει Συναφή Εικόνα από τα Αποτελέσματα Μετασχηματισμός στο διάνυσμα X Μεταβολή των Τιμών του διανύσματος W Δημιουργία του Νέου Περιγραφέα Ερώτημα από το Διάνυσμα W
  • 21. Αλγόριθμος Ανάδρασης Συνάφειας 23  Μετασχηματίζεται το μονοδιάστατο διάνυσμα των περιγραφέων σε ένα τρισδιάστατο διάνυσμα με βάση τα εσωτερικά χαρακτηριστικά τους ( )i k m x m y z     H x διάσταση αντιπροσωπεύει την υφή H y διάσταση αντιπροσωπεύει τα κύρια χρώματα H z διάσταση αντιπροσωπεύει τις αποχρώσεις των κύριων χρωμάτων
  • 22. Αλγόριθμος Ανάδρασης Συνάφειας 24  Το τρισδιάστατο διάνυσμα θα αποθηκεύει την πληροφορία που θα δίνεται από τον χρήστη  Οι αρχικές τιμές που περιέχει είναι οι τιμές του περιγραφέα της εικόνας – ερώτημα  Όταν ο χρήστης επιλέγει μία εικόνα από τα αποτελέσματα της αρχικής ανάκτησης, το διάνυσμα του περιγραφέα αλλάζει τις τιμές του τρισδιάστατου διανύσματος
  • 23. 25 Αλγόριθμος Ανάδρασης Συνάφειας          , , , , , , 1xt yt zt xt yt zt i xt yt zt W t W t L t X W t                 , , , , 1 , , 1 , , xq yq zq xq yq zq xt yt zt W t W t L t h xq yq zq X W t      
  • 24. Παρουσίαση Προτεινόμενης Τεχνικής 26  .NET Framework  ASP.NET / C#  AJAX/ HTML/ Javascript
  • 25. Συμπεράσματα 27  Παρουσιάστηκε ένας Αλγόριθμος Ανάδρασης Συνάφειας  Βελτιώνει τα αποτελέσματα της αρχικής ανάκτησης  Είναι πολύ εύκολος στην υλοποίησή του  Μικρό υπολογιστικό κόστος
  • 26. Χρησιμοποιώντας τα δομικά συστατικά των εγγράφων και Support Vector Machines Εντοπισμός Κειμένου σε Εικόνες Έγραφα 28 3.
  • 27. Το Πρόβλημα Εντοπισμού Κειμένου σε Εικόνες - Έγγραφα 29  Στην σημερινή εποχή δημιουργούνται μεγάλες ποσότητες ψηφιακών εγγράφων χωρίς καμία μετα πληροφορία  Για την ανάλυσής τους από συστήματα όπως Οπτικής Αναγνώρισης Χαρακτήρων (OCR), Συστήματα Ανάκτησης Εγγράφων απαιτείται συνήθως ο εντοπισμός της θέσης του κειμένου στην εικόνα  Κάθε σύνολο από έγγραφα μπορεί να έχει τα δικά του ιδιαίτερα χαρακτηριστικά
  • 28. Προτείνουμε 30  Προτείνουμε μία μέθοδο εντοπισμού ομοιόμορφου κειμένου  Στηρίζεται στα δομικά συστατικά των εγγράφων και στα Support Vector Machines  Έχει την ικανότητα να προσαρμόζεται στις ιδιαιτερότητες της κάθε βάσης εγγράφων - εικόνων
  • 29. Διάγραμμα της Προτεινόμενης Τεχνικής Εφαρμογή ενός φίλτρου Μεσαίας Τιμής και μίας τεχνικής δυαδικοποίησης Εντοπισμός, Ενοποίηση και Εξαγωγή Πλαισίων Δημιουργία Περιγραφέα για κάθε Πλαίσιο Εντοπισμός των Πλαισίων που περιέχουν Κείμενο με τα Support Vector Machines Εξαγωγή ή Εντοπισμός των Πλαισίων της Εικόνας που περιέχουν Κείμενο και Εμφάνισής τους στον Χρήστη 31
  • 30. Εντοπισμός, Ενοποίηση και Εξαγωγή Πλαισίων 32  Το Αρχικό Κείμενο  Μετά την Διαδικασία Προ - Επεξεργασίας  Τα συνδεδεμένα Αντικείμενα  Τα Επεκταμένα Συνδεδεμένα Αντικείμενα  Τα Τελικά Πλαίσια
  • 31. Δημιουργία Περιγραφέα για κάθε Πλαίσιο 33  Ο Περιγραφέας αποτελείται από ένα σύνολο δομημένων στοιχείων του εγγράφου  Δομημένο Στοιχείο είναι ένα 3x3 δυαδικό παράθυρο  Υπάρχουν συνολικά 29 = 512 δομημένα στοιχεία b0 b8 b7 b6 b5 b4 b3 b2 b1 Η σειρά εμφάνισης των εικονοστοιχείων των Δομημένων Στοιχείων 8 0 2i j ji i L b    Το Δομημένο Στοιχείο L142
  • 32. Δημιουργία Περιγραφέα για Κάθε Πλαίσιο 34  Ο περιγραφέας του κάθε πλαισίου είναι το Ιστόγραμμα Εμφάνισης του κάθε Δομημένου Συστατικού  Αρχικά ο περιγραφέας έχει μέγεθος ίσο με 510.  Όλα τα Δομημένα Συστατικά πλην του 1 και του 512 γιατί αυτά αντιστοιχούν σε καθαρά αντικείμενα φόντου και προσκηνίου.  Εφαρμόζεται μία τεχνική μείωσης του μεγέθους του περιγραφέα  Επιλέγονται αυτά τα Δομημένα Συστατικά που αυξάνουν την διαχωριστικότητα μεταξύ πλαισίων που περιέχουν κείμενο και αυτών που δεν περιέχουν.
  • 33. Feature Standard Deviation Analysis of Structure Elements (FSDASE) 35  Υπολογισμός της Τυπικής Απόκλισης των Πλαισίων που περιέχουν κείμενο για κάθε ένα Δομημένο Στοιχείο  Υπολογισμός της Τυπικής Απόκλισης των Πλαισίων που δεν περιέχουν κείμενο για κάθε ένα Δομημένο Στοιχείο  Κανονικοποίηση των δύο παραπάνω μεγεθών  Αφαιρούμε τα δύο παραπάνω μεγέθη για κάθε ένα Δομημένο Στοιχείο  Αυτό που έχει τη μεγαλύτερη τιμή παίρνει την πρώτη θέση στον καινούργιο περιγραφέα, αυτό που έχει την δεύτερη μεγαλύτερη τιμή τη δεύτερη θέση κ.τ.λ.
  • 34. Support Vector Machines 36  Βασίζονται στην Στατιστική Θεωρία της Μάθησης  Χρειάζονται δεδομένα εκπαίδευσης  Χωρίζουν το χώρο που βρίσκονται τα δεδομένα εκπαίδευσης σε δύο κλάσεις  Τα δεδομένα εκπαίδευσης θα πρέπει να είναι γραμμικά διαχωρίσιμα
  • 35. Support Vector Machines 37  Εάν δεν είναι, μετασχηματίζεται ο χώρος έτσι ώστε να είναι γραμμικά διαχωρίσιμα με την βοήθεια των “kernels”  Στην προτεινόμενη τεχνική χρησιμοποιήθηκε o kernel: Radial Basis Function (exp{-γ|x-x`|)  Εφόσον διαχωριστεί ο χώρος με βάση τα δεδομένα εκπαίδευσης, τα καινούργια δεδομένα καταχωρούνται αναλόγως που βρίσκονται στο διαχωρίσιμο χώρο  Η κύρια δυσκολία της εκπαίδευσης των Support Vector Machines έγκειται στην εύρεση των σωστών παραμέτρων  Στην προτεινόμενη τεχνική η εύρεση των παραμέτρων έγινε χρησιμοποιώντας την τεχνική Parameter Estimation Algorithm που χρησιμοποιείται στις μεθόδους δυαδικοποίησης
  • 36. Αξιολόγηση της προτεινόμενης τεχνικής 38  Χρησιμοποιήθηκε μία γνωστή βάση Εγγράφων – Εικόνων  Document Image Database από το University of Oulu  Περιέχει 233 έγγραφα – εικόνες ποικίλης μορφής  Για να αξιολογηθεί η ευελιξία της προτεινόμενης τεχνικής δημιουργήθηκε μία καινούργια βάση από την παραπάνω και προστέθηκε Gaussian και Κρουστικός θόρυβος
  • 37. Ποσοστό Επιτυχίας για τα Έγγραφα Εκπαίδευσης της Βάσης Oulu Αξιολόγηση Προτεινόμενης Τεχνικής 80 82 84 86 88 90 92 94 96 98 100 1 31 61 91 121 151 181 211 241 271 301 331 361 391 421 451 481 Π ο σ ο σ τ ό Ε π ι τ υ χ ί α ς Μέγεθος Περιγραφέα Πλαισίου 39
  • 38. Ποσοστό Επιτυχίας για τα όλα τα Έγγραφα της Βάσης Oulu Αξιολόγηση Προτεινόμενης Τεχνικής 40 80 82 84 86 88 90 92 94 96 98 100 1 31 61 91 121 151 181 211 241 271 301 331 361 391 421 451 481 Π ο σ ο σ τ ό Ε π ι τ υ χ ί α ς Μέγεθος Περιγραφέα Πλαισίου
  • 39. Ποσοστό Επιτυχίας για τα Έγγραφα Εκπαίδευσης της Βάσης που Περιέχει Θόρυβο Αξιολόγηση Προτεινόμενης Τεχνικής 41 80 82 84 86 88 90 92 94 96 98 100 1 31 61 91 121 151 181 211 241 271 301 331 361 391 421 451 481 Π ο σ ο σ τ ό Ε π ι τ υ χ ί α ς Μέγεθος Περιγραφέα Πλαισίου
  • 40. Ποσοστό Επιτυχίας για Όλα τα Έγγραφα που περιέχονται στην Βάση με τον Θόρυβο Αξιολόγηση Προτεινόμενης Τεχνικής 42 80 82 84 86 88 90 92 94 96 98 100 1 31 61 91 121 151 181 211 241 271 301 331 361 391 421 451 481 Π ο σ ο σ τ ό Ε π ι τ υ χ ί α ς Μέγεθος Περιγραφέα Πλαισίου
  • 41. Ο χρόνος ολοκλήρωσης της τεχνικής εντοπισμού κειμένου σε σχέση με το μέγεθος του περιγραφέα πλαισίου Αξιολόγηση Προτεινόμενης Τεχνικής 43 10 10.4 10.8 11.2 11.6 12 1 31 61 91 121 151 181 211 241 271 301 331 361 391 421 451 481 Π ο σ ο σ τ ό Ε π ι τ υ χ ί α ς Μέγεθος Περιγραφέα Πλαισίου
  • 42. Παράδειγμα 1 44 Αρχικό Έγγραφο - Εικόνα Το Εξαγώγιμο Αποτέλεσμα
  • 43. Παράδειγμα 2 45 Αρχικό Έγγραφο - Εικόνα Το Εξαγώγιμο Αποτέλεσμα
  • 44. Παράδειγμα 3 46 Αρχικό Έγγραφο - Εικόνα Το Εξαγώγιμο Αποτέλεσμα
  • 45. Παράδειγμα 4 47 Αρχικό Έγγραφο - Εικόνα Το Εξαγώγιμο Αποτέλεσμα
  • 46. Παράδειγμα 5 48 Αρχικό Έγγραφο - Εικόνα Το Εξαγώγιμο Αποτέλεσμα
  • 47. Παρουσίαση Προτεινόμενης Τεχνικής  .NET Framework  WPF/XAML  C#  libSVM 49
  • 48. Συμπεράσματα 50  Παρουσιάστηκε μία μέθοδο εύρεσης κειμένου σε έγγραφα – εικόνες χρησιμοποιώντας τα δομημένα στοιχεία εγγράφων  Μέσω μία τεχνητής υπολογίζεται ο κατάλληλος περιγραφέας  Με βάση αυτού τα Support Vector Machines αποφασίζουν εάν ένα πλαίσιο περιέχει κείμενο ή όχι.  Ο περιγραφέας μπορεί να μειωθεί ή να αυξηθεί αναλόγως τα όρια της υπολογιστικής ισχύς που διαθέτεται.  Επίσης αξιολογήθηκε η προτεινόμενη μέθοδος σε μία βάση την οποία προστέθηκε θόρυβος ώστε να αποδεχθεί η ευελιξία της.
  • 49. Με την τεχνική εντοπισμού των λέξεων Ανάκτηση Εγγράφων - Εικόνων 51 4.
  • 50. Με την τεχνική εντοπισμού των λέξεων Η Αρχιτεκτονική του συστήματος Ανάκτησης Εικόνων - Εγγράφων 53
  • 51.  Αρχικό Έγγραφο 54  Φίλτρο Μεσαίας Τιμής  Δυαδικοποίηση (Otsu Τεχνική)
  • 52. 55  Αναγνώριση όλων των Συνδεδεμένων Αντικειμένων (CCs)  Υπολογισμός του ποιο κοινού ύψους των Συνδεδεμένων Αντικειμένων που περιέχονται στο κείμενο (CCch)  Απόρριψη των CCs που έχουνε ύψος κάτω του 70% του CCch. Έτσι αφαιρούνται τα σημεία στίξης και ο θόρυβος.  Ανάπτυξη των αριστερών και δεξιών πλευρών κατά 20% του CCch  Οι λέξεις αποτελούν τα ενωμένα επικαλυπτόμενα CCs  Χρησιμοποιώντας την τεχνική των Ενωμένων Συστατικών Κατάτμηση Λέξεων
  • 53.  Width to Height Ratio  Word Area Density. Το ποσοστό των μαύρων (αντικείμενο) εικονοστοιχείων που περιέχονται στο ορθογώνιο πλαίσιο της λέξης.  Center of Gravity. Η ευκλείδεια απόσταση από το κέντρο βαρύτητας μέχρι την πάνω αριστερή γωνία του ορθογώνιου πλαισίου της λέξης: (1,0) (0,1) (0,0) (0,0) ,x y M M C C M M   ( , ) qp pq x y x y M f x y width height             56
  • 54.  Vertical Projection. Τα πρώτα είκοσι (20) βάρη του διακριτού μετασχηματισμού συνημίτονου (DCT) της λείας και εξομαλυμένης κάθετης προβολής.  Αρχική Εικόνα  Η Κάθετη Προβολή  Εξομαλυμένη και Κανονικοποιημένη Προβολή 57
  • 55.  Top – Bottom Shape Projections. Ένα διάνυσμα 50 στοιχείων  Τα πρώτα 25 στοιχεία αποτελούνται από τα πρώτα 25 βάρη των διακριτού μετασχηματισμού συνημίτονου της λείας και εξομαλυμένης Προβολής του Πάνω Σχήματος  Τα υπόλοιπα 25 στοιχεία αποτελούνται από τα πρώτα 25 βάρη του διακριτού μετασχηματισμού συνημίτονου της λείας και εξομαλυμένης Προβολής του Κάτω Σχήματος 58
  • 56.  Upper Grid Features είναι ένα δέκα διαστάσεων διάνυσμα με δυαδικές τιμές, το οποίο υπολογίζεται από το πάνω μέρος της λέξης.  Down Grid Features είναι ένα δέκα διαστάσεων διάνυσμα με δυαδικές τιμές, το οποίο υπολογίζεται από το κάτω μέρος της λέξης. 59
  • 57. [0,0,0,1195 ,0,0,0,0,0,0] [0,0,0,1 ,0,0,0,0,0,0] [0,0,0,0 ,0,0,0, 598 , 50 , 33 ] [0,0,0,0 ,0,0,0,1,1,0] 60
  • 59.  Ο χρήστης πληκτρολογεί μία λέξη - ερώτημα  Το προτεινόμενο σύστημα δημιουργεί μία εικόνα της παραπάνω λέξης με ύψος ίσο με το μέσο ύψος όλων των λέξεων-πλαισίων που υπολογίστηκαν στο στάδιο Κατάτμηση Λέξης στην Offline διεργασία.  Στην πειραματική βάση εγγράφων το μέσο ύψος είναι 50  Το όνομα της γραμματοσειράς της Εικόνας – Ερώτημα είναι Arial  Η εξομαλυσμένη και κανονικοποιημένη διαδικασία των χαρακτηριστικών εξαλείφει τις μικρές διαφορές που υπάρχουν μεταξύ των διαφόρων γραμματοσειρών 62
  • 60.  100 εικόνες – έγγραφα δημιουργήθηκαν τεχνητά από διάφορα κείμενα  Έπειτα προστέθηκε Gaussian και Κρουστικός Θόρυβος (40%). 64
  • 61.  Χρησιμοποιήθηκαν τα μετρικά μεγέθη: Average Precision και NMRR  30 αναζητήσεις σε 100 έγγραφα εικόνες  Γραμματοσειρά της εικόνας ερώτημα είναι «Arial” 65 Mean Average Precision: 99,519% ANMRR: 0.0029% 75 80 85 90 95 100 1 5 9 13 17 21 25 29 Ανακτήσεις Average Precision 0 0.2 0.4 0.6 0.8 1 1 5 9 13 17 21 25 29 Ανακτήσεις NMRR
  • 62. Average Precision NMRR Mean Average Precision: 58,421% ANMRR: 0,4032 66 0 10 20 30 40 50 60 70 80 90 100 1 5 9 13 17 21 25 29 Ανακτήσεις Average Precision 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 5 9 13 17 21 25 29 Ανακτήσεις NMRR
  • 63. Average Precision NMRR Mean Average Precision: 99,611% ANMRR: 0,0017 67 84 86 88 90 92 94 96 98 100 1 5 9 13 17 21 25 29 Ανακτήσεις Average Precision 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 5 9 13 17 21 25 29 Ανακτήσεις NMRR
  • 64. Average Precision NMRR Mean Average Precision: 99,519% ANMRR: 0,0029 68 0 10 20 30 40 50 60 70 80 90 100 1 5 9 13 17 21 25 29 Αναζητήσεις Average Precision 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 5 9 13 17 21 25 29 Αναζητήσεις NMRR
  • 65. 69  Visual Studio 2008  Microsoft .NET Framework 2.0  C# Language  Microsoft SQL Server 2005 http://orpheus.ee.duth.gr/irs2_5/
  • 66.  Η λέξη – ερώτημα δίνεται από το χρήστη σε μορφή κειμένου και μετατρέπεται σε εικόνα  Το προτεινόμενο σύστημα εξάγει 9 ισχυρά χαρακτηριστικά τα οποία σχηματίζουν έναν περιγραφέα για κάθε εικόνα - λέξη.  Τα χαρακτηριστικά αυτά περιγράφουν ικανοποιητικά το σχήμα της λέξης ενώ ταυτόχρονα εξαλείφουν τις μικρές διαφορές λόγω του θορύβου, μεγέθους και τύπου γραμματοσειράς.  Με βάση τα πειραματικά αποτελέσματα το προτεινόμενο σύστημα αποδίδει καλύτερα από ένα εμπορικό OCR πακέτο. 70
  • 67. Στα πρότυπα των περιγραφέων σχήματος του MPEG-7 Συνεπτυγμένος Περιγραφέας Σχήματος 71 5.
  • 68. MPEG - 7 72  Ο σκοπός του είναι να καθορίσει ένα πρότυπο περιγραφής διαφόρων τύπων πολυμεσικής πληροφορίας  Ενώ τα άλλα πρότυπα (MPEG-1, MPEG-2, MPEG-4) αντιπροσωπεύουν το περιεχόμενο (the bits), το MPEG-7 αντιπροσωπεύει την πληροφορία που διαχέεται στο περιεχόμενο (the bits about the bits)  Επιπλέον, καθορίζει ένα πρότυπο αποθήκευσης (βάσεις δεδομένων) των περιγραφέων  Οι περιγραφείς που περιέχει υποστηρίζουν μία μεγάλη ποικιλία μορφών δεδομένων όπως ήχος, ομιλία, εικόνες, γραφικά, 3D μοντέλα, συνθετικό ήχο, βίντεο κ.τ.λ.
  • 69. Αρχές των MPEG-7 Περιγραφέων 73  Καθορίζει τις αρχές που θα πρέπει να υπακούν οι περιγραφείς  Καλή Ακρίβεια στην Ανάκτηση  Ευρεία Εφαρμογή  Συνεπτυγμένη Μορφή
  • 70. Ο υπολογισμός μπορεί πολύ εύκολα να παραλληλιστεί καθώς κάθε χαρακτηριστικό υπολογίζεται ξεχωριστά Το μπλοκ διάγραμμα υπολογισμού του CSPD 74
  • 71. Χαρακτηριστικά 75  Width To Height Ratio: min{ , } max{ , } W H WHR W H 
  • 72.  Vertical – Horizontal Projections. Είναι ένα διάνυσμα 20 διαστάσεων  Οι πρώτες 10 διαστάσεις αποτελούνται από τα πρώτα 10 κβαντισμένα βάρη του διακριμένου μετασχηματισμού συνημίτονου της λείας και κανονικοποίημένης Κάθετης Προβολής  Τα υπόλοιπα 10 στοιχεία αποτελούνται από τα πρώτα 10 κβαντισμένα βάρη του διακριμένου μετασχηματισμού συνημίτονου της λείας και εξομαλυμένης Οριζόντιας Προβολής 76
  • 73.  Top – Bottom Shape Projections. Ένα διάνυσμα 20 διαστάσεων  Οι πρώτες 10 διαστάσεις αποτελούνται από τα πρώτα 10 κβαντισμένα βάρη του διακριμένου μετασχηματισμού συνημίτονου της λείας και κανονικοποίημένης Προβολής του Πάνω Σχήματος  Τα υπόλοιπα 10 στοιχεία αποτελούνται από τα πρώτα 10 κβαντισμένα βάρη του διακριμένου μετασχηματισμού συνημίτονου της λείας και εξομαλυμένης Προβολής του Κάτω Σχήματος 77
  • 74. Κβαντοποίηση Περιγραφέα 78  Μειώνεται αρκετά το μέγεθος του περιγραφέα χωρίς να επηρεάζονται τα αποτελέσματα του.  Το MPEG-7 κβαντίζει αρκετούς από τους περιγραφείς που περιέχει  Επειδή οι τιμές συγκεντρώνονται σε μικρές περιοχές θα πρέπει να κβαντιστούνε μη – γραμμικά  Κάθε χαρακτηριστικό θα πρέπει να κβαντιστεί ξεχωριστά καθώς δεν σχετίζονται μεταξύ τους  Η κβαντοποίηση πραγματοποιήθηκε με τον ασαφή αλγόριθμο Gustafson – Kessel  Κάθε διάσταση του περιγραφέα αντιπροσωπεύεται με 3bits.  Οπότε το συνολικό μέγεθος είναι 3x41 = 123 bits
  • 75. 79  Επιλέγουμε ένα πλήθος εικόνων που περιέχουν σχημάτα και εξάγουμε από αυτά τον περιγραφέα.  Επιλέχθηκαν αυθαίρετα 1500 σχήματα και από αυτά χρησιμοποιήθηκαν 1500 δείγματα για το Width to Height Ratio και 15000 δείγματα (10x1500) για κάθε από τα υπόλοιπα χαρακτηριστικά  Ορίσθηκε το πλήθος των κλάσεων του Gustafson – Kessel ίσο με 8 (23)  O ασαφής αλγόριθμος Gustafson – Kessel δίνει 8 κέντρα κλάσεων και τους αντίστοιχους πίνακες Διασπορών  Μετατρέπονται οι συνεχές τιμές του σε δυαδικές τιμές εύρους [000, 1111] δυαδικές ή σε ακέραιες τιμές εύρους [0,7] Κβαντοποίηση Περιγραφέα
  • 76. Πίνακας Κβαντοποίησης 80 Width to Height (1st bin) Value 000 = 0 001 = 1 010 = 2 011 = 3 100 = 4 101 = 5 110 = 6 111 = 7 Center 0.194 0.358 0.478 0.606 0.733 0.815 0.89 0.975 A 25.013 26.669 30.004 31.839 35.785 52.873 47.896 58.456 Vertical Projection (2nd – 11th bin) Value 000 = 0 001 = 1 010 = 2 011 = 3 100 = 4 101 = 5 110 = 6 111 = 7 Center 0.504 -0.215 -0.09 -0.031 0.004 0.069 0.392 1.412 A 6.438 17.255 39.173 70.481 93.974 27.642 4.586 61.264 Horizontal Projection (12th – 21th bin) Value 000 = 0 001 = 1 010 = 2 011 = 3 100 = 4 101 = 5 110 = 6 111 = 7 Center -0.456 -0.194 -0.09 -0.035 0.003 0.064 0.252 1.414 A 9.781 21.917 47.372 76.465 90.791 38.51 9.305 6984.45 Top Shape Projection (22th – 31th bin) Value 000 = 0 001 = 1 010 = 2 011 = 3 100 = 4 101 = 5 110 = 6 111 = 7 Center -0.438 -0.126 -0.049 -0.014 0.003 0.054 0.505 1.413 A 4.204 24.39 66.304 133.712 162.913 31.417 3.587 94.665 Bottom Shape Projection(32th – 41th bin) Value 000 = 0 001 = 1 010 = 2 011 = 3 100 = 4 101 = 5 110 = 6 111 = 7 Center -0.677 -0.136 -0.003 0.079 0.206 0.436 0.885 1.413 A 4.045 15.185 51.367 31.653 21.257 11.209 6.465 155.284
  • 77. Ως Επέκταση του Schema των MPEG – 7 Οπτικών Περιγραφέων Schema του CSPD 81
  • 78. Μέτρηση Ομοιότητας 82  Προτείνεται ως Μέτρηση Ομοιότητας την weight Minkowski L1:              3 10 , 1 1 10 1 10 1 0 1 10 11Q S k n k n k n D Q S n Q S                Η παραπάνω απόσταση χρησιμοποιεί την ικανότητα του DCT να αποθηκεύει περισσότερη πληροφορία στα πρώτα βάρη  Πειραματικές Μετρήσεις έδειξαν ότι η προτεινόμενη απόσταση δίνει καλύτερα αποτελέσματα από ότι οι αποστάσεις:  normal Minkowski L1  Minkowski L2 (Euclidian Distance)  Bhattacharyya  The non-binary Tanimoto coefficient
  • 79. Αλγόριθμος Ανάδρασης Συνάφειας 83  Υλοποιήθηκε ένας αλγόριθμος Ανάδρασης Συνάφειας που στηρίζεται στα Support Vector Machines  Αρχικά το σύστημα παρουσιάζει τα αποτελέσματα αναζήτησης με βάση το μετρητή ομοιότητας.  Ο χρήστης επιλέγει ποια θεωρεί σωστά και ποια όχι  Οι περιγραφείς των σχημάτων που επέλεξε ο χρήστης χρησιμοποιούνται ως δεδομένα εκπαίδευσης των Support Vector Machines  Κανονικά, η έξοδος των Support Vector Machines είναι δυαδική, η οποία καθορίζεται από το πρόσημο της συνάρτησης απόφασης  Είναι πιθανόν να υπολογιστεί η συνάρτηση συμμετοχής ενός δεδομένου στην μία κλάση και κατά συνέπεια η ομοιότητα του κανονικοποιώντας την συνάρτηση απόφασης
  • 80. Αξιολόγηση Περιγραφέα 85  Τρείς διαφορετικές βάσεις  MPEG-7 CE1 Set B. Αποτελείται από 1400 σχήματα.  20 σελίδες-εικόνες από τα Γραπτά του George Washington από τη Βιβλιοθήκη του Κογκρέσου. Αποτελείται από 4847 χειρόγραφες λέξεις  Ελληνικά χειρόγραφα κείμενα που περιέχουν 173 λέξεις από διαφορετικούς ανθρώπους
  • 81. Τα κίτρινα πλαίσια υλοποιήθηκαν μόνο για τα χειρόγραφα έγγραφα H δομή του υλοποιημένου συστήματος ανάκτησης
  • 82. Παρουσίαση Προτεινόμενης Τεχνικής 87  .NET Framework  WPF/XAML  C#  libSVM
  • 84. 89 Mean Average Precision για την Κάθετη Προβολή Mean Average Precision για την Οριζόντια Προβολή Mean Average Precision για το Πάνω Σχήμα Mean Average Precision για το Κάτω Σχήμα ANMRR για την Κάθετη Προβολή ANMRR για την Οριζόντια Προβολή ANMRR για το Πάνω Σχήμα ANMRR για το Κάτω Σχήμα 0 20 40 60 80 100 1 6 11 16 21 26 31 36 41 46 0 0.2 0.4 0.6 0.8 1 1 6 11 16 21 26 31 36 41 46 0 20 40 60 80 100 1 6 11 16 21 26 31 36 41 46 0 0.2 0.4 0.6 0.8 1 1 6 11 16 21 26 31 36 41 46 0 0.2 0.4 0.6 0.8 1 1 6 11 16 21 26 31 36 41 46 0 0.2 0.4 0.6 0.8 1 1 6 11 16 21 26 31 36 41 46 0 20 40 60 80 100 1 6 11 16 21 26 31 36 41 46 0 20 40 60 80 100 1 6 11 16 21 26 31 36 41 46
  • 85. Πείραμα Κβαντοποίησης 90 0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100 Recall/Precision Γράφημα 1 bit 2 bits 3 bits 4 bits 5 bits 0 0.2 0.4 0.6 0.8 1 1 bit 2 bits 3 bits 4 bits 5 bits Αριθμός bits Κβαντοποίησης ANMRR
  • 86. Πείραμα Μετρητή Ομοιότητας 91 0 20 40 60 80 100 0 10 20 30 40 50 60 70 80 90 100 Recall/Precision Γράφημα Weighted Minkowski L1 Minkowski L1 Minkowski L2 Bhattacharyya Tanimoto 0.2 0.3 0.4 0.5 Weighted Minkowski L1 Minkowski L1 Minkowski L2 Bhattacharyya Tanimoto ANMRR
  • 87. Πείραμα στην MPEG-7 CE1 Set B βάση σχήματος 92 0 20 40 60 80 100 0 10 20 30 40 50 60 70 80 90 100 Recall/Precision Γράφημα Initial Results 1st RF Iteration 2nd RF Iteration 0 0.1 0.2 0.3 0.4 Initial Results 1st RF Iteration 2nd RF Iteration ANMRR
  • 88. Πείραμα στις Χειρόγραφες Λέξεις του George Washington 93 0 20 40 60 80 100 0 10 20 30 40 50 60 70 80 90 100 Recall/Precision Γράφημα Initial Results 1st RF Iteration 2nd RF Iteration 0 0.1 0.2 0.3 0.4 Initial Results 1st RF Iteration 2nd RF Iteration ANMRR
  • 89. Ελληνικά Χειρόγραφα 94 0 20 40 60 80 100 0 10 20 30 40 50 60 70 80 90 100 Recall/Precision Γράφημα Initial Results 1st RF Iteration 2nd RF Iteration 0 0.1 0.2 0.3 0.4 0.5 0.6 Initial Results 1st RF Iteration 2nd RF Iteration ANMRR
  • 90. Υπολογιστικό Κόστος 95  Windows Platform  Intel Core 2 6400 CPU  Χρησιμοποιήθηκαν και οι δύο πυρήνες του επεξεργαστή Ο χρόνος υπολογισμού του προτεινόμενου περιγραφέα για 1400 σχήματα Ολικός χρόνος υπολογισμού του προτεινόμενου περιγραφέα Μέσος χρόνος υπολογισμού του προτεινόμενου περιγραφέα για κάθε σχήμα 4396 milliseconds 3.14 milliseconds
  • 91. Συμπεράσματα 96  Παρουσιάστηκε ένας περιγραφέας σχήματος  Έχει πολύ μικρό μέγεθος (μόνο 123 bits)  Έχει πολύ μικρό υπολογιστικό κόστος  Έχει ευρεία εφαρμογής χωρίς να περιορίζεται η ακρίβεια της ανάκτησης
  • 92. Δημοσιεύσεις  K .Zagoris, N. Papamarkos and I. Koustoudis, Color Reduction using the combination of the Kohonen Self- Organized Feature Map and the Gustafson-Kessel fuzzy algorithm. International Conference on Machine Learning and Data Mining MLDM´2007, 2007.  Konstantinos Zagoris, Nikos Papamarkos, Christodoulos Chamzas: Web Document Image Retrieval System Based on Word Spotting. ICIP 2006: 477-480  K. Zagoris, E. Kavallieratou and N. Papamarkos, "Developing Document Image Retrieval System", "IADIS International Conference on Computer Graphics and Visualization 2008 ", July 22 to July 27, 2008, Amsterdam, The Netherlands.  Konstantinos Zagoris, Savvas A. Chatzichristofis, Nikos Papamarkos and Yiannis S. Boutalis, « img(Anaktisi): A Web Content Based Image Retrieval System», 2nd International Workshop on Similarity Search and Applications, Prague, Czech Republic, 2009.  Konstantinos Zagoris and Nikos Papamarkos, “Text Extraction using Document Structure Features and Support Vector Machines”, 2009 IEEE International Conference on Image Processing, Cairo, Egypt , November 7-11, 2009. Έχει σταλεί για πιθανή δημοσίευση  Konstantinos Zagoris, Nikos Papamarkos, Ioannis Koustoudis: Color Reduction using the Combination of the Kohonen Self-Organized Feature Map and the Gustafson-Kessel Fuzzy Algorithm. Trans. MLDM 1(1): 31-46 (2008)  S. A. Chatzichristofis, K Zagoris, Y. S. Boutalis and N. Papamarkos. «Accurate image retrieval based on compact composite descriptors and relevance feedback information.” International Journal of Pattern Recognition and Artificial Intelligence (IJPRAI), Έχει γίνει δεκτή για δημοσίευση, 2009.  Konstantinos Zagoris, Kavallieratou Ergina and Nikos Papamarkos. «A Document Image Retrieval System». Engineering Applications of Artificial Intelligence. Έχει σταλεί για πιθανή δημοσίευση.  Konstantinos Zagoris and Nikos Papamarkos.” Text Localization using Document Structure Elements and Support Vector Machines”, Έχει σταλεί για πιθανή δημοσίευση.  Konstantinos Zagoris, Kavallieratou Ergina and Nikos Papamarkos, “Image Retrieval Systems Based On Compact Shape Descriptor and Relevance Feedback Information”, Visual Communication and Image Representation, Έχει σταλεί για πιθανή δημοσίευση. 97 Συνέδρια Περιοδικά