1. INTERNET TECHNOLOGIES
The Syntactic Web, Web
Information Retrieval algorithms &
Search Engine Technologies
Part I
Αναγνωστόπουλος Ι.
INTERNET TECHNOLOGIES
Περισσότερα στατιστικά:
nua.ie, mids.org, ripe.net, netcraft.com, gvu.gatech.edu, netsizer.com (Telcordia), caida.com,
isoc.org
1
2. INTERNET TECHNOLOGIES
Μηχανές Αναζήτησης (ΜΑ)
Οι µηχανές αναζήτησης (ΜΑ) είναι ειδικά εργαλεία λογισµικού µε την βοήθεια των οποίων οι
χρήστες µπορούν να προσπελάσουν αποµακρυσµένες πηγές πληροφορίας και δικτυακούς
τόπους – ιστοχώρους.
∆ιακρίνονται σε:
Αυτόµατες ΜΑ [Crawlers]
Google, AltaVista, Excite, AllTheWeb, Lycos, MSN (Bing)
Θεµατικούς Κατάλογους
Yahoo!, Open Directory Project (DMOZ), Looksmart
Άλλες
AskJeeves (επεξεργασία φυσικής γλώσσας),
Overture (Paid Listings Search Engines )
Συνεργασία µεταξύ τους ...
INTERNET TECHNOLOGIES
Μηχανισµοί µιας Αυτόµατης Μ.Α.
2
3. INTERNET TECHNOLOGIES
Αντεστραµµένα αρχεία
Λέξεις IDs κειµένων
βιβλίο 1, 2, 10, 30, ...
µολύβι 1, 2, 10, 40, 43, ...
ταινία 11, 21, 22, 23, ...
ήχος 4, 6, 8, ...
• Μία δοµή αντεστραµµένου αρχείου αποτελείται από:
– Ένα διάνυσµα (vocabulary) το οποίο περιέχει όλες τις διακριτές
λέξεις του κειµένου, και
– Μία λίστα κειµένων για κάθε διακριτή λέξη
INTERNET TECHNOLOGIES
3
4. INTERNET TECHNOLOGIES
INTERNET TECHNOLOGIES
Χαρακτηριστικά των Μ.Α.:
Εξωτερικά χαρακτηριστικά
Aφορούν τις λειτουργίες της Μ.Α. όσον αφορά τα βήµατα της “σύλληψης”, της συλλογής και
της σύνταξης των ιστοσελίδων. Παρότι ο χρήστης δεν κάνει χρήση αυτών των χαρακτηριστικών,
επηρεάζουν την αναζήτησή του και τα επιστρεφόµενα αποτελέσµατα που λαµβάνει. Από την
άλλη πλευρά βέβαια η γνώση αυτών των χαρακτηριστικών είναι ιδιαίτερα χρήσιµη για τους
υπεύθυνους και τους δηµιουργούς των ιστοσελίδων. Αυτό γιατί γνωρίζοντας τον τρόπο µε τον
οποίο µια Μ.Α. επεξεργάζεται τις πληροφορίες, γίνεται γνωστός και ο τρόπος κατάταξης της
ιστοσελίδας ανάλογα µε τις ερωτήσεις που υποβάλλει ο χρήστης.
Εσωτερικά χαρακτηριστικά
Το σύνολο των διαφορετικών λειτουργιών κάθε Μ.Α. όσον αφορά την ανάκτηση πληροφοριών
από την µεριά του χρήστη. Σε αντίθεση µε τα εξωτερικά χαρακτηριστικά που ενδιαφέρουν τους
δηµιουργούς και κατόχους των ιστοσελίδων, τα εσωτερικά χαρακτηριστικά αφορούν
περισσότερο τους τελικούς χρήστες των Μ.Α. (δεν ισχύει βέβαια πάντα αυτό)
4
5. INTERNET TECHNOLOGIES
Εξωτερικά χαρακτηριστικά - Χαρακτηριστικά αυτόµατης αναζήτησης ιστοσελίδων
Υποστήριξη πλαισίων
Σύνταξη - Χαρτογράφηση εικόνων
Αποτροπή αυτόµατης ανίχνευσης ιστοχώρου
Robots Exclusion Protocol
Η αποτροπή αυτή γίνεται µε την εφαρµογή µιας εντολής που προστίθεται σε ένα ειδικά
καθορισµένο πεδίο των µετα-ετικετών στην αρχή του πηγαίου κώδικα της Γλώσσας
Υπερκειµενικής Σήµανσης της ιστοσελίδας.
Αποτροπή αυτόµατης ανίχνευσης ιστοσελίδας
Robots Exclusion META tag
Αναφορά από άλλες υπερσυνδέσµους
Το χαρακτηριστικό αυτό απαντάται στις πλέον σύγχρονες Μ.Α., όπου αποτελεί
ταυτόχρονα και ένα µέτρο για τον αν κάποιες ιστοσελίδες θα περιληφθούν στους
καταλόγους και τα ευρετήρια αναζήτησης.
Ανίχνευση ανανέωσης περιεχοµένου
Ειδική προβολή µε πληρωµή
INTERNET TECHNOLOGIES
Εξωτερικά χαρακτηριστικά – χαρακτηριστικά σύνταξης ιστοσελίδων
Σύνταξη “ορατού” κειµένου
Αποβολή κοινών λέξεων
Υποστήριξη πεδίων µετά-ετικετών
∆ηµιουργία παραγώγων λέξεων
Εξωτερικά χαρακτηριστικά – χαρακτηριστικά κατάταξης αποτελεσµάτων
Στάθµιση των πεδίων µετα-ετικετών
Στάθµιση σε αναφορές από άλλους υπερσυνδέσµους
Στάθµιση ανάλογα µε την επιλογή των αποτελεσµάτων
Μέθοδοι σχετικής ανατροφοδότησης – Hotbot
Εξωτερικά χαρακτηριστικά – Αναγνώριση και αντιµετώπιση τεχνικών Spam
Αντιµετώπιση “αόρατου” κειµένου
Αντιµετώπιση κειµένου ελάχιστου µεγέθους
5
6. INTERNET TECHNOLOGIES
Εσωτερικά χαρακτηριστικά ή λειτουργίες ανάκτησης πληροφορίας
Μαθηµατικές Εντολές αναζήτησης – εντολές Boolean τύπου
Τελεστής "AND" ή "+"
Τελεστής "NOT" ή "-"
Τελεστής "OR"
Ο τελεστής "ADJ" ή ""
"όρος1" ADJ "όρος2" ADJ "όρος3"
Ο τελεστής "NEAR"
Ο τελεστής "FAR"
Φώλιασµα ή Σύνθεση τελεστών
"Ακριβής Φράση" AND ("όρος1" OR "όρος2")
Ενισχυµένες εντολές αναζήτησης
Χρήση χαρακτήρων wildcards (Μπαλαντέρ) ("?","*")
ca?s cars ή cats
ca*s cars ή cats ή cameras ή careers
INTERNET TECHNOLOGIES
Εσωτερικά χαρακτηριστικά ή λειτουργίες ανάκτησης πληροφορίας
Χαρακτηριστικά αναζήτησης
Σχετικές αναζητήσεις
Το χαρακτηριστικό αυτό παρέχεται για να βοηθήσει τους χρήστες ώστε να
πραγµατοποιήσουν πιο συγκεκριµένες αναζητήσεις ή να τους προτείνει παρεµφερείς
ερωτήσεις άλλων χρηστών. Έτσι, οι Μ.Α. που το υποστηρίζουν εµφανίζουν συνήθως
µια λίστα µε υπερσυνδέσεις µε σχετικές αναζητήσεις χρησιµοποιώντας γνωστούς
όρους, οδηγώντας τον χρήστη συχνά σε καλύτερα αποτελέσµατα.
Συγκέντρωση αποτελεσµάτων
Το χαρακτηριστικό αυτό αποτρέπει την ταυτόχρονη εµφάνιση πολλών ιστοσελίδων
που ανήκουν στον ίδιο ιστοχώρο στα τελικά αποτελέσµατα. Έτσι παρουσιάζεται ένα
πιο συνοπτικό και αντιπροσωπευτικό δείγµα απαντήσεων ενώ ο χρήστης έχει
µεγαλύτερη πιθανότητα να ανακτήσει µια ενδιαφέρουσα πληροφορία γρήγορα.
∆ηµιουργία παραγώγων λέξεων
Εσωτερική Αναζήτηση
Οι Μ.Α. που υποστηρίζουν αυτήν τη λειτουργία επιτρέπουν στους χρήστες τους να
πραγµατοποιήσουν επιπρόσθετες ερωτήσεις πάνω στο σύνολο των επιστρεφόµενων
αποτελεσµάτων. Πρόκειται για µια πολύ χρήσιµη λειτουργία γιατί το σύνολο των
αποτελεσµάτων παραµένει αναλλοίωτο, ενώ ταυτόχρονα “στενεύουν” οι αναζητήσεις
του χρήστη.
6
7. INTERNET TECHNOLOGIES
Εσωτερικά χαρακτηριστικά ή λειτουργίες ανάκτησης πληροφορίας
Χαρακτηριστικά αναζήτησης
Αναζήτηση αποθηκευµένων ιστοσελίδων
Το χαρακτηριστικό αυτό επιτρέπει την ανάκτηση ιστοσελίδων όπως έχουν συνταχθεί
πριν ανανεωθούν εκ νέου από τους µηχανισµούς µιας υπηρεσίας αναζήτησης. Έτσι,
είναι δυνατή η παρουσίαση ιστοσελίδων που δεν είναι πλέον ενεργές.
(µια εφαρµογή στην επόµενη διαφάνεια)
Μετάφραση ιστοσελίδας
Συνήθως χρονοβόρα διαδικασίας, λόγω του ότι το αίτηµα στέλνεται από τον χρήστη
στον διακοµιστή της Μ.Α., όπου πραγµατοποιείται σε πραγµατικό χρόνο η
µετάφραση
Έλεγχος και φιλτράρισµα “επικίνδυνου” περιεχοµένου
INTERNET TECHNOLOGIES
Google MSN
20000
18000
16000
amount of examined results
14000
12000
10000
8000
6000
4000
2000
0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39
days
Up-to-dateness rate through caching service (Google – MSN)
7
8. INTERNET TECHNOLOGIES
Εσωτερικά χαρακτηριστικά ή λειτουργίες ανάκτησης πληροφορίας
Χαρακτηριστικά προσαρµογής απεικόνισης και προβολής
Ταξινόµηση αποτελεσµάτων ανά ηµεροµηνία
Ταξινόµηση αποτελεσµάτων σε καθορισµένο εύρος ηµεροµηνίας
Προβολή ηµεροµηνίας δηµιουργίας ή µορφοποίησης της ιστοσελίδας
Παροχή περιβάλλοντος ενισχυµένης αναζήτησης
Παροχή βοήθειας
INTERNET TECHNOLOGIES
Ο Αλγόριθµος Page Rank (Google)
8
9. INTERNET TECHNOLOGIES
Επισκόπηση Αυτόµατων Μηχανών Αναζήτησης
Google
Αλγόριθµος PageRank [Brin, Page - 1998]
πλήθος υπερσυνδέσµων που “δείχνουν” στο επιστρεφόµενο αποτέλεσµα (αναφορές)
σηµαντικότητα υπερσυνδέσµων – βαρύτητα υπερσυνδέσµων
Μεγαλύτερη κάλυψη, φιλικό περιβάλλον Ιστοσελίδα Άµεση 1η έµµεση
Αναφορά αναφορά
A C A, B, D
B A C
C A, B, D
D
1. C
2. A
3. B
4. D
http://www.iprcom.com/papers/pagerank
INTERNET TECHNOLOGIES
We assume page A has pages T1...Tn which point to it (i.e., are citations). The parameter d is a
damping factor which can be set between 0 and 1. We usually set d to 0.85.
C(A) is defined as the number of links going out of page A. The PageRank of a page A is given
as follows:
PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))
T1 Tn
A
T2 citations
outgoing
links
9
10. INTERNET TECHNOLOGIES
ΑΛΓΟΡΙΘΜΟΣ HITS
Ο Αλγόριθµος HITS (Hypertext Induced Topic Search) προτάθηκε από τον
Kleinberg (1998).
Προσπαθεί να διακρίνει authorities και hubs για ένα συγκεκριµένο θέµα
(topic), αναλύοντας το σχετικό υπογράφο του Ιστού.
Βασικές έννοιες
Hub = µια σελίδα που δεν δίνει πολλές πληροφορίες για συγκεκριµένο θέµα, αλλά µας λεει
που θα βρούµε αυτές τις πληροφορίες.
πχ το www.autochanell.com είναι ένα hub για αυτοκίνητα.
Authority = µια σελίδα που δίνει πληροφορία κύρους για κάποιο θέµα.
πχ το http://www.bmw.com/ είναι ένα authority για το ερώτηµα “BMW cars”.
INTERNET TECHNOLOGIES
Ένα hub δείχνει σε πολλά authorities.
Σε ένα authority αναφέρονται πολλά
hubs.
10
11. INTERNET TECHNOLOGIES
Τα βήµατα που διακρίνονται σε αυτό τον αλγόριθµο είναι:
1) Θέτουµε µία ερώτηση στην search engine και λαµβάνουµε απ’ αυτήν ένα αρχικό σύνολο
σελίδων (root set) - έστω πήραµε 200 σελίδες ως απάντηση στην ερώτηση.
2) ∆ηµιουργούµε ένα βασικό σύνολο (base set) S, το οποίο αποτελείται από το αρχικό σύνολο
και όλες τις σελίδες που συνδέονται µε αυτό, µέσω links. Έστω έγιναν 1000 οι σελίδες.
3) Σε κάθε σελίδα p του συνόλου S αντιστοιχούν δύο τιµές - βάρη: µία τιµή authority Α(p) και
µία τιµή hub Η(p).
4) Αρχικά θέτουµε όλες τις τιµές ίσες µε 1:
Α(p) = Η(p) = 1
INTERNET TECHNOLOGIES
5) Ενηµερώνουµε τις αρχικές τιµές authority και hub κάθε σελίδας εφαρµόζοντας επαναληπτικά
τις διαδικασίες In-degree και Out-degree.
6) Τα βάρη A(p) και H(p) όλων των σελίδων είναι κανονικοποιηµένα, δηλ αφού υπολογιστούν
από τους προηγούµενους τύπους,
διαιρούνται µε και αντίστοιχα.
11
14. INTERNET TECHNOLOGIES
5η επανάληψη και κανονικοποίηση
I – operation Ο – operation
Α(α) = 0 Η(α) = 0.657
Α(β) = 0 H(β) = 0.369
Α(γ) = 0 H(γ) = A(δ) + A(ε) = 0.657
Α(δ) = 0.788 H(δ) = Α(α) = 0
Α(ε) = 0.615 H(ε) = 0
Τελική κατάταξη ? (ανάλογα µε την θεώρηση για το ρόλο των σελίδων Hub - Authority)
Συµπεράσµατα
Εκτελείται σε ένα σύνολο ανακτηµένων σελίδων και για κάθε query.
Υπολογίζει authorities και hubs.
Είναι εύκολος στον υπολογισµό αλλά η εκτέλεση σε πραγµατικό χρόνο είναι δύσκολη.
14