4. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ
Σκοπός Εργασίας
• Δημιουργία ενός αυτόματου σύστηματος εντοπισμού
γεωγραφικές θέσης των πολυμέσων
Σύνολο
εκπαίδευσης
User Id: George
Tags: dog, New York,
Usa, Central park
Date: 11/4/2013
[40.71, -73.97]
5. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ
Αυτόματος Εντοπισμός Θέσης με χρήση
Γλωσσικών Μοντέλων
• Υλοποίηση βασισμένη στη έρευνα (Van Laere et al.,
ICMR ‘11)
• Ομαδοποίηση με χρήση του 𝑘-means, και εξαγωγή
των 𝑥2
χαρακτηριστικά.
• Εφαρμογή γλωσσικών μοντέλων και αναζήτηση
ομοιότητας.
6. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ
Εισαγωγή δεδομένων στον αλγόριθμο
• Μορφή κειμένου
74,25981735@N00,52.470701,13.412504,street berlin bike sign perspective
460261,16884413@N08,40.626591,22.947993,white tower thessaloniki θεσσαλονίκη πύργοσ λευκόσ
1799632,9855426@N02,40.183594,116.556015,china beijing peking thegreatwall pekín
2870482,96661011@N00,30.2569,-87.63603,beach sunrise gulf alabama shores
αύξοντας αριθμός όνομα χρήστη γεωγραφικό μήκος γεωγραφικό πλάτος tags
• Δημιουργία Ν αντικειμένων 𝛪𝑖 = 𝑑𝑖, 𝑢𝑖, 𝑐𝑖 , 𝑡𝑖 , 𝑎𝑖
d ← ταυτότητα εικόνας
u ← όνομα χρήστη
c ← συντεταγμένες
t ← tags
• Παραδείγματα εγγραφών
7. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ
Ομαδοποίηση των εικόνων
• Ομαδοποίηση με τον αλγόριθμο 𝑘-means
• Δημιουργία K ομάδων (clusters), βάση των γεωγραφικών
τους συντεταγμένων 𝑐
K = 5
K = 100
8. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ
Υπολογισμός x2 χαρακτηριστικού
• Για κάθε ομάδα υπολογίζεται το x2 χαρακτηριστικό
μέγεθος των tags των εικόνων της
𝑥2
𝑎, 𝑡 =
𝑂𝑡𝑎−𝐸𝑡𝑎
2
𝐸𝑡𝑎
+
𝑂 𝑡 𝑎−𝐸 𝑡 𝑎
2
𝐸 𝑡 𝑎
+
𝑂 𝑡𝑎−𝐸 𝑡𝑎
2
𝐸 𝑡𝑎
+
𝑂 𝑡 𝑎−𝐸 𝑡 𝑎
2
𝐸 𝑡 𝑎
• 𝑂𝑦𝑥: ο αριθμός των εικόνων της περιοχής x που
εμφανίζεται το y tag
• 𝐸 𝑦𝑥: ο εκτιμώμενος αριθμός εμφανίσεων του tag y
στην περιοχή x.
𝐸 𝑦𝑥 = 𝛮 · 𝑃(𝑦) · 𝑃(𝑥)
9. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ
Δημιουργία Περιοχών
• Επιλογή m πρώτων λέξεων που σχηματίζουν το λεξιλόγιο v
κάθε ομάδας
• Δημιουργία Κ αντικειμένων 𝐴𝑗 = 𝑎𝑗, 𝑤𝑗 , 𝑣𝑗
a ← ταυτότητα cluster
w ← εικόνες του cluster
v ← λεξιλόγιο ομάδας
• Παραδείγματα περιοχών
CLUSTER ID VOCABULARY
1 india singapore thailand malaysia asia
3 england london uk spain france
5 japan china tokyo taiwan philippines
7 greece turkey istanbul egypt moscow
10 brasil brazil argentina chile buenosaires
10. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ
Γλωσσικό Μοντέλο (1/2)
• Ανάθεση των εικόνων του συνόλου ελέγχου στις
περιοχές βάση του τύπου:
𝑃 𝑎 𝑥 ∝ 𝑃 𝑎 ·
𝑡∈𝑥
𝑃 𝑡 𝑎
• Ο υπολογισμός των πιθανοφανειών P(t|a) δίνεται
από τον τύπο
𝑃 𝑡 𝑎 =
𝑂𝑡𝑎 + 𝜇 · 𝛼′∈𝛢 𝑂 𝑡𝛼′
𝛼′∈𝛢 𝑡′∈𝑉 𝑂 𝑡′ 𝛼′
𝑡′∈𝑉 𝑂 𝑡′ 𝑎 + 𝜇
13. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ
Σημασιολογική και Οπτική Ανάλυση για
τον Εντοπισμό Θέσης
• Σημασιολογική ανάλυση (text-based analysis)
– Υλοποιήθηκε με βάση τον αλγόριθμο γλωσσικού μοντέλου και
χρησιμοποιεί τον γεννητικού θεματικού αλγορίθμου LDA δυο
επιπέδων.
• Οπτική ανάλυση (visual-based analysis)
– Εξαγωγή των SURF+VLAD χαρακτηριστικά των εικόνων και
χρήση τεχνικών κοντινότερου γείτονα για τον υπολογισμό της
εκτιμώμενης θέση.
• Υβριδική Υλοποίηση (Hybrid Approach)
– μίξη των δύο τεχνικών
14. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ
Latent Dirichlet Allocation - LDA (1/2)
• Γεννητικό πιθανοκρατικό μοντέλο ενός σώματος
κειμένου (corpus)
• Βασική Αρχή
– τα έγγραφα αναπαρίστανται ως τυχαία μείγματα από
λανθάνοντα θέματα, όπου κάθε θέμα χαρακτηρίζεται από
μια κατανομή σε ένα λεξιλόγιο
• Χρήσιμοι όροι:
– «λέξη» : βασική μονάδα διακεκριμένων δεδομένων
αντικείμενο ενός λεξιλογίου, 𝑤
– «έγγραφο»: ακολουθία από N λέξεις, 𝒘 =(𝑤1, 𝑤2, … , 𝑤 𝛮)
– «σώμα» : είναι μια συλλογή M εγγράφων,
D= 𝒘1, 𝒘2, … , 𝒘 𝛭
16. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ
Σημασιολογική Ανάλυση
• Απομάκρυνση των machine tags (π.χ. “geo:lat=… ”)
• Οριστική διαγραφή κενών εικόνων
Training Prediction
Spatial Clustering
& local LDAs
Filtering
Global LDA
& BoEW
Σημασιολογική Ανάλυση - Εκπαίδευση
1ο βήμα
• περιορισμός θορύβου
• πιο πλούσιες σε πληροφορία περιοχές
Assignment
in Areas
Similarity
Search
17. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ
• Σχηματισμός περιοχών με εφαρμογή του 𝑘-means, συνολικού
αριθμού Κ
• Τοπικά θεματικά μοντέλα δημιουργούνται για τις εικόνες κάθε
περιοχής με χρήση LDA (100/20)
• Σχηματισμός αντικειμένων 𝐴𝑗 = 𝑎𝑗, 𝑤𝑗 , 𝜏𝑗
Training Prediction
Filtering
Global LDA
& BoEW
Spatial Clustering
& local LDAs
Σημασιολογική Ανάλυση - Εκπαίδευση
2ο βήμα
Assignment
in Areas
Similarity
Search
18. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ
• Εξαγωγή καθολικού θεματικού μοντέλου με χρήση LDA (500/50)
σε ολόκληρο το σύνολο εκπαίδευσης
• Δημιουργία λεξιλογίου αποκλειόμενων λέξεων
(Bag-of-Excluded-Words, BoEW)
Training Prediction
Filtering
Global LDA
& BoEW
Spatial Clustering
& local LDAs
Σημασιολογική Ανάλυση - Εκπαίδευση
3ο βήμα
Assignment
in Areas
Similarity
Search
Assignment
in Areas
20. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ
Δημιουργία BoEW (1/3)
• Λίστα των “ενεργών” topics για κάθε εικόνα
– Γνωρίζουμε ότι 𝑗=0
𝑁 𝐺
𝛩 𝐺,𝑗𝑑 = 1
– Όριο “ενεργοποίησης” 𝑡 𝑎 =
1
0.9∗𝑁 𝐺
• Ιστογράμματος συχνότητας εμφάνισης των topics
μέσα στις περιοχές
21. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ
Δημιουργία BoEW (2/3)
• Λίστα των ανενεργών topic Ε με βάση την εντροπία
τους
– Υπολογισμός εντροπίας κάθε topic
𝐸 𝛸 = −
𝑖=0
𝑛
𝑝 𝑥𝑖 ∗ log(𝑝 𝑥𝑖 )
– Εμπειρικά ορίστηκε όριο 𝑡 𝑒=180
ΕΝΤΡΟΠΙΑ ΙΣΧΥΡΟΤΕΡΑ TAGS
409.84 sky clouds sunset blue sun
195.98 bike bicycle cycling race road
149.74 london uk england londres kingdom
68.35 greece athens ελλάδα hellas thessaloniki
65.46 barcelona spain catalunya españa cataluña
22. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ
Δημιουργία BoEW (3/3)
• Δημιουργία λεξιλογίου αποκλειόμενων λέξεων
– Κριτήριο εισαγωγής ενός tag στη BoEW:
max ← arg 𝑚𝑎𝑥𝑗 𝛷 𝐺,𝑖𝑗 ∈ 𝛦
– Η λέξη που καταχωρείται στο λεξιλογίου
αποκλειόμενων λέξεων είναι η 𝑀 𝐺,𝑚𝑎𝑥
23. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ
• Φιλτράρισμα των tags που περιέχουν θόρυβο και όσων βρίσκονται στο
BoEW
• Υπολογισμός της Jaccard ομοιότητας μίας 𝑖 εικόνας με ένα topic 𝑗 που
ανήκει σε μία περιοχή 𝑘
𝑠𝑖𝑗𝑘 =
𝑡𝑖 ∩ 𝜏𝑗𝑘
𝑡𝑖 ∪ 𝜏𝑗𝑘
Training Prediction
Filtering
Global LDA
& BoEW
Spatial Clustering
& local LDAs
Σημασιολογική Ανάλυση -
Εκτίμηση τελικής θέσης (1/2)
Assignment
in Areas
Similarity
Search
Assignment
in Areas
Κριτήρια ανάθεσης κάθε εικόνας του συνόλου ελέγχου στις περιοχές
– Περιοχή που ανήκει το topic με την μεγαλύτερη τιμή ομοιότητας
tmax : 𝑎𝑟𝑒𝑎𝑖 = arg 𝑚𝑎𝑥𝑗,𝑘 𝑠𝑖𝑗𝑘
– Περιοχή με τον μεγαλύτερο μέσο όρο (ανάμεσα στα topics) ομοιότητας
tmean : 𝑎𝑟𝑒𝑎𝑖 = arg 𝑚𝑎𝑥𝑗 𝑘=0
𝑘
𝑠𝑖𝑗𝑘
24. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ
Σημασιολογική Ανάλυση -
Εκτίμηση τελικής θέσης (2/2)
Training Prediction
Filtering
Global LDA
& BoEW
Spatial Clustering
& local LDAs
Assignment
in Areas
Similarity
Search
• Έχοντας αναθέσει κάθε εικόνες σε μια περιοχή:
– 𝑘 εικόνες με τη μεγαλύτερη ομοιότητα
– τελική εκτίμηση της γεωγραφικής θέσης από το κέντρο
βαρύτητας (center-of-gravity)
25. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ
Οπτική Ανάλυση
• Υλοποίηση με βάση την (Spyromitros-Xioufis et al., WIAMIS ‘12)
• Εξαγωγή των βελτιστοποιημένων SURF+VLAD διανυσμάτων για
ολόκληρο το σύνολο εκπαίδευσης
• Κατάταξή τους σε πίνακα με χρήση τεχνικών IVFADC
• Αναζήτηση Product Quantization
• 1η υλοποίηση - vnn: τοποθέτηση κάθε εικόνας στον πιο κοντινό
οπτικά γείτονα 𝑘 = 1
• 2η υλοποίηση - vclust: εφαρμογή στοιχειώδους αλγορίθμου
χωρικής ομαδοποίησης για τους 𝑘 =20 κοντινότερους γείτονες
26. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ
Αποτελέσματα - Γλωσσικό Μοντέλο (1/2)
• N = 3.281.022 και Τ =10.000 εικόνες
• K = {50, 500, 2.500, 5.000, 7.500, 10.000, 12.500, 15.000,
17.500, 20.000}
• m = {6 400, 640, 256 , 64, 28, 16, 10, 7, 5, 4}
• Language Model (LM): γλωσσικό μοντέλο με τελική εκτίμηση
της γεωγραφικής θέσης το κέντρο της ομάδας που έγινε η
ανάθεση.
• Hybrid Approach (HA): γλωσσικό μοντέλο με τελική εκτίμηση
της γεωγραφικής θέσης με τη χρήση της διαδικασίας
αναζήτησης ομοιότητας εντός της ομάδας ανάθεσης.
31. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ
Μελλοντική Εργασία
• Όσον αφορά στην ανάλυση των μετα-δεδομένων μπορεί να
γίνει πειραματισμός για τα παρακάτω μεγέθη:
– # περιοχών K
– # των topics και των λέξεων/topics για τους τοπικούς και
του καθολικού LDAs
– Όριο εντροπίας
• Χρησιμοποιηθούν διαφορετικές μέθοδοι για την εύρεση των
κοντινότερων γειτόνων στην οπτική ανάλυση
• Αξιοποίηση περισσότερων μετα-δεδομένων, όπως η
ταυτότητα του χρήστη και η ανάλυση της εικόνας
• Χρήση γεωγραφικών λεξικών (gazetteers) και πληροφοριών
από το Internet