SlideShare a Scribd company logo
1 of 14
Download to read offline
INTERNET TECHNOLOGIES




                          The Syntactic Web, Web
                     Information Retrieval algorithms &
                         Search Engine Technologies
                                          Part I


                                    Αναγνωστόπουλος Ι.




                              INTERNET TECHNOLOGIES




Περισσότερα στατιστικά:
nua.ie, mids.org, ripe.net, netcraft.com, gvu.gatech.edu, netsizer.com (Telcordia), caida.com,
isoc.org




                                                                                                 1
INTERNET TECHNOLOGIES


Μηχανές Αναζήτησης (ΜΑ)
Οι µηχανές αναζήτησης (ΜΑ) είναι ειδικά εργαλεία λογισµικού µε την βοήθεια των οποίων οι
χρήστες µπορούν να προσπελάσουν αποµακρυσµένες πηγές πληροφορίας και δικτυακούς
τόπους – ιστοχώρους.

∆ιακρίνονται σε:
   Αυτόµατες ΜΑ [Crawlers]
   Google, AltaVista, Excite, AllTheWeb, Lycos, MSN (Bing)

   Θεµατικούς Κατάλογους
   Yahoo!, Open Directory Project (DMOZ), Looksmart

   Άλλες
   AskJeeves (επεξεργασία φυσικής γλώσσας),
   Overture (Paid Listings Search Engines )

   Συνεργασία µεταξύ τους ...




                                INTERNET TECHNOLOGIES




                            Μηχανισµοί µιας Αυτόµατης Μ.Α.




                                                                                           2
INTERNET TECHNOLOGIES


                       Αντεστραµµένα αρχεία
Λέξεις            IDs κειµένων
 βιβλίο           1, 2, 10, 30, ...
 µολύβι           1, 2, 10, 40, 43, ...
 ταινία           11, 21, 22, 23, ...
  ήχος            4, 6, 8, ...


• Μία δοµή αντεστραµµένου αρχείου αποτελείται από:
   – Ένα διάνυσµα (vocabulary) το οποίο περιέχει όλες τις διακριτές
     λέξεις του κειµένου, και
   – Μία λίστα κειµένων για κάθε διακριτή λέξη




                     INTERNET TECHNOLOGIES




                                                                      3
INTERNET TECHNOLOGIES




                             INTERNET TECHNOLOGIES


Χαρακτηριστικά των Μ.Α.:

          Εξωτερικά χαρακτηριστικά
Aφορούν τις λειτουργίες της Μ.Α. όσον αφορά τα βήµατα της “σύλληψης”, της συλλογής και
της σύνταξης των ιστοσελίδων. Παρότι ο χρήστης δεν κάνει χρήση αυτών των χαρακτηριστικών,
επηρεάζουν την αναζήτησή του και τα επιστρεφόµενα αποτελέσµατα που λαµβάνει. Από την
άλλη πλευρά βέβαια η γνώση αυτών των χαρακτηριστικών είναι ιδιαίτερα χρήσιµη για τους
υπεύθυνους και τους δηµιουργούς των ιστοσελίδων. Αυτό γιατί γνωρίζοντας τον τρόπο µε τον
οποίο µια Μ.Α. επεξεργάζεται τις πληροφορίες, γίνεται γνωστός και ο τρόπος κατάταξης της
ιστοσελίδας ανάλογα µε τις ερωτήσεις που υποβάλλει ο χρήστης.

         Εσωτερικά χαρακτηριστικά
Το σύνολο των διαφορετικών λειτουργιών κάθε Μ.Α. όσον αφορά την ανάκτηση πληροφοριών
από την µεριά του χρήστη. Σε αντίθεση µε τα εξωτερικά χαρακτηριστικά που ενδιαφέρουν τους
δηµιουργούς και κατόχους των ιστοσελίδων, τα εσωτερικά χαρακτηριστικά αφορούν
περισσότερο τους τελικούς χρήστες των Μ.Α. (δεν ισχύει βέβαια πάντα αυτό)




                                                                                            4
INTERNET TECHNOLOGIES

Εξωτερικά χαρακτηριστικά - Χαρακτηριστικά αυτόµατης αναζήτησης ιστοσελίδων

   Υποστήριξη πλαισίων
   Σύνταξη - Χαρτογράφηση εικόνων
   Αποτροπή αυτόµατης ανίχνευσης ιστοχώρου
        Robots Exclusion Protocol
        Η αποτροπή αυτή γίνεται µε την εφαρµογή µιας εντολής που προστίθεται σε ένα ειδικά
        καθορισµένο πεδίο των µετα-ετικετών στην αρχή του πηγαίου κώδικα της Γλώσσας
        Υπερκειµενικής Σήµανσης της ιστοσελίδας.
   Αποτροπή αυτόµατης ανίχνευσης ιστοσελίδας
        Robots Exclusion META tag
   Αναφορά από άλλες υπερσυνδέσµους
        Το χαρακτηριστικό αυτό απαντάται στις πλέον σύγχρονες Μ.Α., όπου αποτελεί
        ταυτόχρονα και ένα µέτρο για τον αν κάποιες ιστοσελίδες θα περιληφθούν στους
        καταλόγους και τα ευρετήρια αναζήτησης.
   Ανίχνευση ανανέωσης περιεχοµένου
   Ειδική προβολή µε πληρωµή




                            INTERNET TECHNOLOGIES


Εξωτερικά χαρακτηριστικά – χαρακτηριστικά σύνταξης ιστοσελίδων

   Σύνταξη “ορατού” κειµένου
   Αποβολή κοινών λέξεων
   Υποστήριξη πεδίων µετά-ετικετών
   ∆ηµιουργία παραγώγων λέξεων

Εξωτερικά χαρακτηριστικά – χαρακτηριστικά κατάταξης αποτελεσµάτων

   Στάθµιση των πεδίων µετα-ετικετών
   Στάθµιση σε αναφορές από άλλους υπερσυνδέσµους
   Στάθµιση ανάλογα µε την επιλογή των αποτελεσµάτων
        Μέθοδοι σχετικής ανατροφοδότησης – Hotbot

Εξωτερικά χαρακτηριστικά – Αναγνώριση και αντιµετώπιση τεχνικών Spam

   Αντιµετώπιση “αόρατου” κειµένου
   Αντιµετώπιση κειµένου ελάχιστου µεγέθους




                                                                                             5
INTERNET TECHNOLOGIES
Εσωτερικά χαρακτηριστικά ή λειτουργίες ανάκτησης πληροφορίας

Μαθηµατικές Εντολές αναζήτησης – εντολές Boolean τύπου

   Τελεστής "AND" ή "+"
   Τελεστής "NOT" ή "-"
   Τελεστής "OR"
   Ο τελεστής "ADJ" ή ""
         "όρος1" ADJ "όρος2" ADJ "όρος3"

   Ο τελεστής "NEAR"
   Ο τελεστής "FAR"
   Φώλιασµα ή Σύνθεση τελεστών
         "Ακριβής Φράση" AND ("όρος1" OR "όρος2")

Ενισχυµένες εντολές αναζήτησης

Χρήση χαρακτήρων wildcards (Μπαλαντέρ) ("?","*")
   ca?s cars ή cats
   ca*s cars ή cats ή cameras ή careers




                            INTERNET TECHNOLOGIES
Εσωτερικά χαρακτηριστικά ή λειτουργίες ανάκτησης πληροφορίας

Χαρακτηριστικά αναζήτησης

   Σχετικές αναζητήσεις
          Το χαρακτηριστικό αυτό παρέχεται για να βοηθήσει τους χρήστες ώστε να
          πραγµατοποιήσουν πιο συγκεκριµένες αναζητήσεις ή να τους προτείνει παρεµφερείς
          ερωτήσεις άλλων χρηστών. Έτσι, οι Μ.Α. που το υποστηρίζουν εµφανίζουν συνήθως
          µια λίστα µε υπερσυνδέσεις µε σχετικές αναζητήσεις χρησιµοποιώντας γνωστούς
          όρους, οδηγώντας τον χρήστη συχνά σε καλύτερα αποτελέσµατα.
   Συγκέντρωση αποτελεσµάτων
          Το χαρακτηριστικό αυτό αποτρέπει την ταυτόχρονη εµφάνιση πολλών ιστοσελίδων
          που ανήκουν στον ίδιο ιστοχώρο στα τελικά αποτελέσµατα. Έτσι παρουσιάζεται ένα
          πιο συνοπτικό και αντιπροσωπευτικό δείγµα απαντήσεων ενώ ο χρήστης έχει
          µεγαλύτερη πιθανότητα να ανακτήσει µια ενδιαφέρουσα πληροφορία γρήγορα.
   ∆ηµιουργία παραγώγων λέξεων
   Εσωτερική Αναζήτηση
          Οι Μ.Α. που υποστηρίζουν αυτήν τη λειτουργία επιτρέπουν στους χρήστες τους να
          πραγµατοποιήσουν επιπρόσθετες ερωτήσεις πάνω στο σύνολο των επιστρεφόµενων
          αποτελεσµάτων. Πρόκειται για µια πολύ χρήσιµη λειτουργία γιατί το σύνολο των
          αποτελεσµάτων παραµένει αναλλοίωτο, ενώ ταυτόχρονα “στενεύουν” οι αναζητήσεις
          του χρήστη.




                                                                                           6
INTERNET TECHNOLOGIES
 Εσωτερικά χαρακτηριστικά ή λειτουργίες ανάκτησης πληροφορίας

 Χαρακτηριστικά αναζήτησης

                             Αναζήτηση αποθηκευµένων ιστοσελίδων
                                    Το χαρακτηριστικό αυτό επιτρέπει την ανάκτηση ιστοσελίδων όπως έχουν συνταχθεί
                                    πριν ανανεωθούν εκ νέου από τους µηχανισµούς µιας υπηρεσίας αναζήτησης. Έτσι,
                                    είναι δυνατή η παρουσίαση ιστοσελίδων που δεν είναι πλέον ενεργές.
                                    (µια εφαρµογή στην επόµενη διαφάνεια)
                             Μετάφραση ιστοσελίδας
                                    Συνήθως χρονοβόρα διαδικασίας, λόγω του ότι το αίτηµα στέλνεται από τον χρήστη
                                    στον διακοµιστή της Μ.Α., όπου πραγµατοποιείται σε πραγµατικό χρόνο η
                                    µετάφραση
                             Έλεγχος και φιλτράρισµα “επικίνδυνου” περιεχοµένου




                                                           INTERNET TECHNOLOGIES

                                                                          Google                MSN
                             20000

                             18000

                             16000
amount of examined results




                             14000

                             12000

                             10000

                              8000

                              6000

                              4000

                              2000

                                0
                                     1   3   5     7   9   11   13   15   17   19    21    23    25   27   29   31   33   35   37   39

                                                                                    days



                                                 Up-to-dateness rate through caching service (Google – MSN)




                                                                                                                                         7
INTERNET TECHNOLOGIES


Εσωτερικά χαρακτηριστικά ή λειτουργίες ανάκτησης πληροφορίας

Χαρακτηριστικά προσαρµογής απεικόνισης και προβολής

   Ταξινόµηση αποτελεσµάτων ανά ηµεροµηνία

   Ταξινόµηση αποτελεσµάτων σε καθορισµένο εύρος ηµεροµηνίας

   Προβολή ηµεροµηνίας δηµιουργίας ή µορφοποίησης της ιστοσελίδας

   Παροχή περιβάλλοντος ενισχυµένης αναζήτησης

   Παροχή βοήθειας




                            INTERNET TECHNOLOGIES




                 Ο Αλγόριθµος Page Rank (Google)




                                                                    8
INTERNET TECHNOLOGIES
Επισκόπηση Αυτόµατων Μηχανών Αναζήτησης

Google
   Αλγόριθµος PageRank [Brin, Page - 1998]
   πλήθος υπερσυνδέσµων που “δείχνουν” στο επιστρεφόµενο αποτέλεσµα (αναφορές)
   σηµαντικότητα υπερσυνδέσµων – βαρύτητα υπερσυνδέσµων

Μεγαλύτερη κάλυψη, φιλικό περιβάλλον                   Ιστοσελίδα   Άµεση            1η έµµεση
                                                                    Αναφορά          αναφορά
                                                       A            C                A, B, D
                                                       B            A                C
                                                       C            A, B, D
                                                       D




                                                                              1. C
                                                                              2. A
                                                                              3. B
                                                                              4. D
 http://www.iprcom.com/papers/pagerank




                               INTERNET TECHNOLOGIES


We assume page A has pages T1...Tn which point to it (i.e., are citations). The parameter d is a
damping factor which can be set between 0 and 1. We usually set d to 0.85.
C(A) is defined as the number of links going out of page A. The PageRank of a page A is given
as follows:



                PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))




                   T1                                Tn


                                    A

              T2                                                                 citations
                                                                                 outgoing
                                                                                 links




                                                                                                   9
INTERNET TECHNOLOGIES


                    ΑΛΓΟΡΙΘΜΟΣ HITS

     Ο Αλγόριθµος HITS (Hypertext Induced Topic Search) προτάθηκε από τον
     Kleinberg (1998).
     Προσπαθεί να διακρίνει authorities και hubs για ένα συγκεκριµένο θέµα
     (topic), αναλύοντας το σχετικό υπογράφο του Ιστού.


Βασικές έννοιες
Hub = µια σελίδα που δεν δίνει πολλές πληροφορίες για συγκεκριµένο θέµα, αλλά µας λεει
που θα βρούµε αυτές τις πληροφορίες.
πχ το www.autochanell.com είναι ένα hub για αυτοκίνητα.
Authority = µια σελίδα που δίνει πληροφορία κύρους για κάποιο θέµα.
πχ το http://www.bmw.com/ είναι ένα authority για το ερώτηµα “BMW cars”.




                          INTERNET TECHNOLOGIES




                       Ένα hub δείχνει σε πολλά authorities.
                       Σε ένα authority αναφέρονται πολλά
                     hubs.




                                                                                         10
INTERNET TECHNOLOGIES
Τα βήµατα που διακρίνονται σε αυτό τον αλγόριθµο είναι:

1) Θέτουµε µία ερώτηση στην search engine και λαµβάνουµε απ’ αυτήν ένα αρχικό σύνολο
σελίδων (root set) - έστω πήραµε 200 σελίδες ως απάντηση στην ερώτηση.

2) ∆ηµιουργούµε ένα βασικό σύνολο (base set) S, το οποίο αποτελείται από το αρχικό σύνολο
και όλες τις σελίδες που συνδέονται µε αυτό, µέσω links. Έστω έγιναν 1000 οι σελίδες.




3) Σε κάθε σελίδα p του συνόλου S αντιστοιχούν δύο τιµές - βάρη: µία τιµή authority Α(p) και
µία τιµή hub Η(p).

4) Αρχικά θέτουµε όλες τις τιµές ίσες µε 1:
Α(p) = Η(p) = 1




                               INTERNET TECHNOLOGIES



5) Ενηµερώνουµε τις αρχικές τιµές authority και hub κάθε σελίδας εφαρµόζοντας επαναληπτικά
τις διαδικασίες In-degree και Out-degree.




6) Τα βάρη A(p) και H(p) όλων των σελίδων είναι κανονικοποιηµένα, δηλ αφού υπολογιστούν
από τους προηγούµενους τύπους,
 διαιρούνται µε                   και                   αντίστοιχα.




                                                                                               11
INTERNET TECHNOLOGIES

 Παράδειγµα:
 Στο παρακάτω σχήµα να γίνει page rank εφαρµόζοντας τον αλγόριθµο hits




  Θέτουµε αρχικά
           H(α) = H(β) = H(γ) = H(δ) = H(ε) = 1
           A(α) = A(β) = A(γ) = A(δ) = A(ε) = 1
  1η επανάληψη

  I – operation                               Ο – operation
  Α(α) = H(δ) = 1,                            Η(α) = A(δ) + A(ε) = 5,
  Α(β) = 0                                    H(β) = Α(δ) = 3
  Α(γ) = 0                                    H(γ) = A(δ) + A(ε) = 5
  Α(δ) = H(α) + H(β) + H(γ) = 3               H(δ) = Α(α) = 1
  Α(ε) = H(α) + H(γ) = 2                      H(ε) = 0




                             INTERNET TECHNOLOGIES

Κάνουµε κανονικοποίηση




Και οι νέες τιµές που προκύπτουν είναι οι ακόλουθες

Α(α) = 1 / 3.74 = 0.267               Η(α) = 5 / 7.746 = 0.645
Α(β) = 0                              H(β) = Α(δ) = 3 / 7.746 = 0.387
Α(γ) = 0
                                      H(γ) = 5 / 7.746 = 0.645
Α(δ) = 3 / 3.74 = 0.802
Α(ε) = 2 / 3.74 = 0.535               H(δ) = 1 / 7.746 = 0.129
                                      H(ε) = 0




                                                                         12
INTERNET TECHNOLOGIES




 2η επανάληψη

 I – operation
                                                 Ο – operation
 Α(α) = H(δ) = 0.129,
 Α(β) = 0                                        Η(α) = A(δ) + A(ε) = 2.967
 Α(γ) = 0                                        H(β) = Α(δ) = 1.677
 Α(δ) = H(α) + H(β) + H(γ) = 1.677               H(γ) = A(δ) + A(ε) = 2.967
 Α(ε) = H(α) + H(γ) = 1.29                       H(δ) = Α(α) = 0.129
                                                 H(ε) = 0




                                INTERNET TECHNOLOGIES
Κάνουµε κανονικοποίηση




  Και οι νέες τιµές που προκύπτουν είναι οι ακόλουθες

  Α(α) = 0.129 / 2.12 = 0.061             Η(α) = 2.967 / 4.5 = 0.659
  Α(β) = 0                                H(β) = 1.677 / 4.5 = 0.373
  Α(γ) = 0
                                          H(γ) = 2.967 / 4.5 = 0.659
  Α(δ) = 1.677 / 2.12 = 0.791
  Α(ε) = 1.29 / 2.12 = 0.608              H(δ) = 0.129 / 4.5 = 0.029
                                          H(ε) = 0




          Οµοιώς συνεχίζουµε µέχρι ένα δεδοµένο σηµείο σύγκλισης...




                                                                              13
INTERNET TECHNOLOGIES

5η επανάληψη και κανονικοποίηση

I – operation                                   Ο – operation
Α(α) = 0                                        Η(α) = 0.657
Α(β) = 0                                        H(β) = 0.369
Α(γ) = 0                                        H(γ) = A(δ) + A(ε) = 0.657
Α(δ) = 0.788                                    H(δ) = Α(α) = 0
Α(ε) = 0.615                                    H(ε) = 0


Τελική κατάταξη ? (ανάλογα µε την θεώρηση για το ρόλο των σελίδων Hub - Authority)


 Συµπεράσµατα

 Εκτελείται σε ένα σύνολο ανακτηµένων σελίδων και για κάθε query.
 Υπολογίζει authorities και hubs.
 Είναι εύκολος στον υπολογισµό αλλά η εκτέλεση σε πραγµατικό χρόνο είναι δύσκολη.




                                                                                     14

More Related Content

Similar to Ws 13-3(2010-11)

3 1+Mhxanes+Anazhthshs (2)
3 1+Mhxanes+Anazhthshs (2)3 1+Mhxanes+Anazhthshs (2)
3 1+Mhxanes+Anazhthshs (2)Mania Loumakou
 
Συλλογικοί Κατάλογοι & Διαδίκτυο
Συλλογικοί Κατάλογοι & ΔιαδίκτυοΣυλλογικοί Κατάλογοι & Διαδίκτυο
Συλλογικοί Κατάλογοι & ΔιαδίκτυοLevadia Library
 
Narlis Eystratios
Narlis EystratiosNarlis Eystratios
Narlis EystratiosISSEL
 
Giannopoulos Nikolaos: Ανάπτυξη Τεχνικών Εξατομίκευσης Διαφημιστικών Προβολών...
Giannopoulos Nikolaos: Ανάπτυξη Τεχνικών Εξατομίκευσης Διαφημιστικών Προβολών...Giannopoulos Nikolaos: Ανάπτυξη Τεχνικών Εξατομίκευσης Διαφημιστικών Προβολών...
Giannopoulos Nikolaos: Ανάπτυξη Τεχνικών Εξατομίκευσης Διαφημιστικών Προβολών...Manos Tsardoulias
 
Internet Explorer Now And Beyond
Internet  Explorer Now And BeyondInternet  Explorer Now And Beyond
Internet Explorer Now And BeyondKonstantinos Pantos
 
DEEP WEB DYNAMICS: ΕΝΤΟΠΙΣΜΟΣ, ΠΡΟΣΒΑΣΗ ΚΑΙ ΚΑΤΑΓΡΑΦΗ ΕΞΕΛΙΚΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ...
DEEP WEB DYNAMICS: ΕΝΤΟΠΙΣΜΟΣ, ΠΡΟΣΒΑΣΗ ΚΑΙ ΚΑΤΑΓΡΑΦΗ ΕΞΕΛΙΚΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ...DEEP WEB DYNAMICS: ΕΝΤΟΠΙΣΜΟΣ, ΠΡΟΣΒΑΣΗ ΚΑΙ ΚΑΤΑΓΡΑΦΗ ΕΞΕΛΙΚΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ...
DEEP WEB DYNAMICS: ΕΝΤΟΠΙΣΜΟΣ, ΠΡΟΣΒΑΣΗ ΚΑΙ ΚΑΤΑΓΡΑΦΗ ΕΞΕΛΙΚΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ...Aggelos Tzani
 
Dontsios Dimitris
Dontsios DimitrisDontsios Dimitris
Dontsios DimitrisISSEL
 
Ανίχνευση Αποκλίνουσας Συμπεριφοράς Χρηστών Διαδικτυακής Εφαρμογής Σε Πραγματ...
Ανίχνευση Αποκλίνουσας Συμπεριφοράς Χρηστών Διαδικτυακής Εφαρμογής Σε Πραγματ...Ανίχνευση Αποκλίνουσας Συμπεριφοράς Χρηστών Διαδικτυακής Εφαρμογής Σε Πραγματ...
Ανίχνευση Αποκλίνουσας Συμπεριφοράς Χρηστών Διαδικτυακής Εφαρμογής Σε Πραγματ...ISSEL
 
Real-Time Detection Of Abnormal User Behavior In Web Applications Using Machi...
Real-Time Detection Of Abnormal User Behavior In Web Applications Using Machi...Real-Time Detection Of Abnormal User Behavior In Web Applications Using Machi...
Real-Time Detection Of Abnormal User Behavior In Web Applications Using Machi...ISSEL
 
Σχεδίαση και ανάπτυξη Μηχανισμού Αυτοματοποίησης παραγωγής Λογισμικού Ελέγχου...
Σχεδίαση και ανάπτυξη Μηχανισμού Αυτοματοποίησης παραγωγής Λογισμικού Ελέγχου...Σχεδίαση και ανάπτυξη Μηχανισμού Αυτοματοποίησης παραγωγής Λογισμικού Ελέγχου...
Σχεδίαση και ανάπτυξη Μηχανισμού Αυτοματοποίησης παραγωγής Λογισμικού Ελέγχου...ISSEL
 
Design and Implementation of a Mechanism that automates the generation of Sof...
Design and Implementation of a Mechanism that automates the generation of Sof...Design and Implementation of a Mechanism that automates the generation of Sof...
Design and Implementation of a Mechanism that automates the generation of Sof...ISSEL
 
Project Management: Ανάπτυξη εφαρμογής για iPhone.
Project Management: Ανάπτυξη εφαρμογής για iPhone.Project Management: Ανάπτυξη εφαρμογής για iPhone.
Project Management: Ανάπτυξη εφαρμογής για iPhone.chris zlatis
 
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...ISSEL
 
Μελέτες χρηστικότητας δικτυακών τόπων ακαδημαϊκών βιβλιοθηκών:προτάσεις επιλο...
Μελέτες χρηστικότητας δικτυακών τόπων ακαδημαϊκών βιβλιοθηκών:προτάσεις επιλο...Μελέτες χρηστικότητας δικτυακών τόπων ακαδημαϊκών βιβλιοθηκών:προτάσεις επιλο...
Μελέτες χρηστικότητας δικτυακών τόπων ακαδημαϊκών βιβλιοθηκών:προτάσεις επιλο...Ifigenia Vardakosta
 
Ellak Document Management Introduction
Ellak Document Management IntroductionEllak Document Management Introduction
Ellak Document Management Introductionmichael_mountrakis
 
Μαϊτης Αντώνιος
Μαϊτης ΑντώνιοςΜαϊτης Αντώνιος
Μαϊτης ΑντώνιοςAntonis Maitis
 

Similar to Ws 13-3(2010-11) (20)

Google Analytics - Picasa (by Samprobalaki Aspasia)
Google Analytics - Picasa (by Samprobalaki Aspasia)Google Analytics - Picasa (by Samprobalaki Aspasia)
Google Analytics - Picasa (by Samprobalaki Aspasia)
 
3 1+Mhxanes+Anazhthshs (2)
3 1+Mhxanes+Anazhthshs (2)3 1+Mhxanes+Anazhthshs (2)
3 1+Mhxanes+Anazhthshs (2)
 
Συλλογικοί Κατάλογοι & Διαδίκτυο
Συλλογικοί Κατάλογοι & ΔιαδίκτυοΣυλλογικοί Κατάλογοι & Διαδίκτυο
Συλλογικοί Κατάλογοι & Διαδίκτυο
 
Narlis Eystratios
Narlis EystratiosNarlis Eystratios
Narlis Eystratios
 
Giannopoulos Nikolaos: Ανάπτυξη Τεχνικών Εξατομίκευσης Διαφημιστικών Προβολών...
Giannopoulos Nikolaos: Ανάπτυξη Τεχνικών Εξατομίκευσης Διαφημιστικών Προβολών...Giannopoulos Nikolaos: Ανάπτυξη Τεχνικών Εξατομίκευσης Διαφημιστικών Προβολών...
Giannopoulos Nikolaos: Ανάπτυξη Τεχνικών Εξατομίκευσης Διαφημιστικών Προβολών...
 
Internet Explorer Now And Beyond
Internet  Explorer Now And BeyondInternet  Explorer Now And Beyond
Internet Explorer Now And Beyond
 
DEEP WEB DYNAMICS: ΕΝΤΟΠΙΣΜΟΣ, ΠΡΟΣΒΑΣΗ ΚΑΙ ΚΑΤΑΓΡΑΦΗ ΕΞΕΛΙΚΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ...
DEEP WEB DYNAMICS: ΕΝΤΟΠΙΣΜΟΣ, ΠΡΟΣΒΑΣΗ ΚΑΙ ΚΑΤΑΓΡΑΦΗ ΕΞΕΛΙΚΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ...DEEP WEB DYNAMICS: ΕΝΤΟΠΙΣΜΟΣ, ΠΡΟΣΒΑΣΗ ΚΑΙ ΚΑΤΑΓΡΑΦΗ ΕΞΕΛΙΚΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ...
DEEP WEB DYNAMICS: ΕΝΤΟΠΙΣΜΟΣ, ΠΡΟΣΒΑΣΗ ΚΑΙ ΚΑΤΑΓΡΑΦΗ ΕΞΕΛΙΚΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ...
 
Dontsios Dimitris
Dontsios DimitrisDontsios Dimitris
Dontsios Dimitris
 
Μια εισαγωγή στο Bootstrap
Μια εισαγωγή στο Bootstrap Μια εισαγωγή στο Bootstrap
Μια εισαγωγή στο Bootstrap
 
Ανίχνευση Αποκλίνουσας Συμπεριφοράς Χρηστών Διαδικτυακής Εφαρμογής Σε Πραγματ...
Ανίχνευση Αποκλίνουσας Συμπεριφοράς Χρηστών Διαδικτυακής Εφαρμογής Σε Πραγματ...Ανίχνευση Αποκλίνουσας Συμπεριφοράς Χρηστών Διαδικτυακής Εφαρμογής Σε Πραγματ...
Ανίχνευση Αποκλίνουσας Συμπεριφοράς Χρηστών Διαδικτυακής Εφαρμογής Σε Πραγματ...
 
Real-Time Detection Of Abnormal User Behavior In Web Applications Using Machi...
Real-Time Detection Of Abnormal User Behavior In Web Applications Using Machi...Real-Time Detection Of Abnormal User Behavior In Web Applications Using Machi...
Real-Time Detection Of Abnormal User Behavior In Web Applications Using Machi...
 
Παρουσίαση Smart
Παρουσίαση SmartΠαρουσίαση Smart
Παρουσίαση Smart
 
Σχεδίαση και ανάπτυξη Μηχανισμού Αυτοματοποίησης παραγωγής Λογισμικού Ελέγχου...
Σχεδίαση και ανάπτυξη Μηχανισμού Αυτοματοποίησης παραγωγής Λογισμικού Ελέγχου...Σχεδίαση και ανάπτυξη Μηχανισμού Αυτοματοποίησης παραγωγής Λογισμικού Ελέγχου...
Σχεδίαση και ανάπτυξη Μηχανισμού Αυτοματοποίησης παραγωγής Λογισμικού Ελέγχου...
 
Design and Implementation of a Mechanism that automates the generation of Sof...
Design and Implementation of a Mechanism that automates the generation of Sof...Design and Implementation of a Mechanism that automates the generation of Sof...
Design and Implementation of a Mechanism that automates the generation of Sof...
 
Project Management: Ανάπτυξη εφαρμογής για iPhone.
Project Management: Ανάπτυξη εφαρμογής για iPhone.Project Management: Ανάπτυξη εφαρμογής για iPhone.
Project Management: Ανάπτυξη εφαρμογής για iPhone.
 
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
 
Μελέτες χρηστικότητας δικτυακών τόπων ακαδημαϊκών βιβλιοθηκών:προτάσεις επιλο...
Μελέτες χρηστικότητας δικτυακών τόπων ακαδημαϊκών βιβλιοθηκών:προτάσεις επιλο...Μελέτες χρηστικότητας δικτυακών τόπων ακαδημαϊκών βιβλιοθηκών:προτάσεις επιλο...
Μελέτες χρηστικότητας δικτυακών τόπων ακαδημαϊκών βιβλιοθηκών:προτάσεις επιλο...
 
Asfask1
Asfask1Asfask1
Asfask1
 
Ellak Document Management Introduction
Ellak Document Management IntroductionEllak Document Management Introduction
Ellak Document Management Introduction
 
Μαϊτης Αντώνιος
Μαϊτης ΑντώνιοςΜαϊτης Αντώνιος
Μαϊτης Αντώνιος
 

More from vafopoulos

2010 06-08 chania stochastic web modelling - copy
2010 06-08 chania stochastic web modelling - copy2010 06-08 chania stochastic web modelling - copy
2010 06-08 chania stochastic web modelling - copyvafopoulos
 
Amaxus con webdoc_10773
Amaxus con webdoc_10773Amaxus con webdoc_10773
Amaxus con webdoc_10773vafopoulos
 
Ws 13-4(2010-11)
Ws 13-4(2010-11)Ws 13-4(2010-11)
Ws 13-4(2010-11)vafopoulos
 
Presentation gr
Presentation grPresentation gr
Presentation grvafopoulos
 
Vafopoulos is the 2faces of janus
Vafopoulos is the 2faces of janusVafopoulos is the 2faces of janus
Vafopoulos is the 2faces of janusvafopoulos
 
2010 3-24 cryptography stamatiou
2010 3-24 cryptography stamatiou2010 3-24 cryptography stamatiou
2010 3-24 cryptography stamatiouvafopoulos
 
κοινωνια της πληροφοριας ευκαιριες και απειλες
κοινωνια της πληροφοριας ευκαιριες και απειλεςκοινωνια της πληροφοριας ευκαιριες και απειλες
κοινωνια της πληροφοριας ευκαιριες και απειλεςvafopoulos
 
2010 02-24 ws gm logic
2010 02-24 ws gm logic2010 02-24 ws gm logic
2010 02-24 ws gm logicvafopoulos
 
Wiki technologies nov_2008_ye
Wiki technologies nov_2008_yeWiki technologies nov_2008_ye
Wiki technologies nov_2008_yevafopoulos
 
Issue 11834$pdf
Issue 11834$pdfIssue 11834$pdf
Issue 11834$pdfvafopoulos
 
Gget 30 webscience
Gget 30 webscienceGget 30 webscience
Gget 30 websciencevafopoulos
 
Mit csail-tr-2007-034
Mit csail-tr-2007-034Mit csail-tr-2007-034
Mit csail-tr-2007-034vafopoulos
 
Riseptis report 1
Riseptis report 1Riseptis report 1
Riseptis report 1vafopoulos
 
Trust and the web veria 11 12- 09
Trust and  the web  veria  11 12- 09Trust and  the web  veria  11 12- 09
Trust and the web veria 11 12- 09vafopoulos
 
Το πλαίσιο της επιστήμης του Web
Το πλαίσιο της επιστήμης του WebΤο πλαίσιο της επιστήμης του Web
Το πλαίσιο της επιστήμης του Webvafopoulos
 
A framework of Web Science
A framework of Web Science A framework of Web Science
A framework of Web Science vafopoulos
 

More from vafopoulos (17)

D bpedia
D bpediaD bpedia
D bpedia
 
2010 06-08 chania stochastic web modelling - copy
2010 06-08 chania stochastic web modelling - copy2010 06-08 chania stochastic web modelling - copy
2010 06-08 chania stochastic web modelling - copy
 
Amaxus con webdoc_10773
Amaxus con webdoc_10773Amaxus con webdoc_10773
Amaxus con webdoc_10773
 
Ws 13-4(2010-11)
Ws 13-4(2010-11)Ws 13-4(2010-11)
Ws 13-4(2010-11)
 
Presentation gr
Presentation grPresentation gr
Presentation gr
 
Vafopoulos is the 2faces of janus
Vafopoulos is the 2faces of janusVafopoulos is the 2faces of janus
Vafopoulos is the 2faces of janus
 
2010 3-24 cryptography stamatiou
2010 3-24 cryptography stamatiou2010 3-24 cryptography stamatiou
2010 3-24 cryptography stamatiou
 
κοινωνια της πληροφοριας ευκαιριες και απειλες
κοινωνια της πληροφοριας ευκαιριες και απειλεςκοινωνια της πληροφοριας ευκαιριες και απειλες
κοινωνια της πληροφοριας ευκαιριες και απειλες
 
2010 02-24 ws gm logic
2010 02-24 ws gm logic2010 02-24 ws gm logic
2010 02-24 ws gm logic
 
Wiki technologies nov_2008_ye
Wiki technologies nov_2008_yeWiki technologies nov_2008_ye
Wiki technologies nov_2008_ye
 
Issue 11834$pdf
Issue 11834$pdfIssue 11834$pdf
Issue 11834$pdf
 
Gget 30 webscience
Gget 30 webscienceGget 30 webscience
Gget 30 webscience
 
Mit csail-tr-2007-034
Mit csail-tr-2007-034Mit csail-tr-2007-034
Mit csail-tr-2007-034
 
Riseptis report 1
Riseptis report 1Riseptis report 1
Riseptis report 1
 
Trust and the web veria 11 12- 09
Trust and  the web  veria  11 12- 09Trust and  the web  veria  11 12- 09
Trust and the web veria 11 12- 09
 
Το πλαίσιο της επιστήμης του Web
Το πλαίσιο της επιστήμης του WebΤο πλαίσιο της επιστήμης του Web
Το πλαίσιο της επιστήμης του Web
 
A framework of Web Science
A framework of Web Science A framework of Web Science
A framework of Web Science
 

Ws 13-3(2010-11)

  • 1. INTERNET TECHNOLOGIES The Syntactic Web, Web Information Retrieval algorithms & Search Engine Technologies Part I Αναγνωστόπουλος Ι. INTERNET TECHNOLOGIES Περισσότερα στατιστικά: nua.ie, mids.org, ripe.net, netcraft.com, gvu.gatech.edu, netsizer.com (Telcordia), caida.com, isoc.org 1
  • 2. INTERNET TECHNOLOGIES Μηχανές Αναζήτησης (ΜΑ) Οι µηχανές αναζήτησης (ΜΑ) είναι ειδικά εργαλεία λογισµικού µε την βοήθεια των οποίων οι χρήστες µπορούν να προσπελάσουν αποµακρυσµένες πηγές πληροφορίας και δικτυακούς τόπους – ιστοχώρους. ∆ιακρίνονται σε: Αυτόµατες ΜΑ [Crawlers] Google, AltaVista, Excite, AllTheWeb, Lycos, MSN (Bing) Θεµατικούς Κατάλογους Yahoo!, Open Directory Project (DMOZ), Looksmart Άλλες AskJeeves (επεξεργασία φυσικής γλώσσας), Overture (Paid Listings Search Engines ) Συνεργασία µεταξύ τους ... INTERNET TECHNOLOGIES Μηχανισµοί µιας Αυτόµατης Μ.Α. 2
  • 3. INTERNET TECHNOLOGIES Αντεστραµµένα αρχεία Λέξεις IDs κειµένων βιβλίο 1, 2, 10, 30, ... µολύβι 1, 2, 10, 40, 43, ... ταινία 11, 21, 22, 23, ... ήχος 4, 6, 8, ... • Μία δοµή αντεστραµµένου αρχείου αποτελείται από: – Ένα διάνυσµα (vocabulary) το οποίο περιέχει όλες τις διακριτές λέξεις του κειµένου, και – Μία λίστα κειµένων για κάθε διακριτή λέξη INTERNET TECHNOLOGIES 3
  • 4. INTERNET TECHNOLOGIES INTERNET TECHNOLOGIES Χαρακτηριστικά των Μ.Α.: Εξωτερικά χαρακτηριστικά Aφορούν τις λειτουργίες της Μ.Α. όσον αφορά τα βήµατα της “σύλληψης”, της συλλογής και της σύνταξης των ιστοσελίδων. Παρότι ο χρήστης δεν κάνει χρήση αυτών των χαρακτηριστικών, επηρεάζουν την αναζήτησή του και τα επιστρεφόµενα αποτελέσµατα που λαµβάνει. Από την άλλη πλευρά βέβαια η γνώση αυτών των χαρακτηριστικών είναι ιδιαίτερα χρήσιµη για τους υπεύθυνους και τους δηµιουργούς των ιστοσελίδων. Αυτό γιατί γνωρίζοντας τον τρόπο µε τον οποίο µια Μ.Α. επεξεργάζεται τις πληροφορίες, γίνεται γνωστός και ο τρόπος κατάταξης της ιστοσελίδας ανάλογα µε τις ερωτήσεις που υποβάλλει ο χρήστης. Εσωτερικά χαρακτηριστικά Το σύνολο των διαφορετικών λειτουργιών κάθε Μ.Α. όσον αφορά την ανάκτηση πληροφοριών από την µεριά του χρήστη. Σε αντίθεση µε τα εξωτερικά χαρακτηριστικά που ενδιαφέρουν τους δηµιουργούς και κατόχους των ιστοσελίδων, τα εσωτερικά χαρακτηριστικά αφορούν περισσότερο τους τελικούς χρήστες των Μ.Α. (δεν ισχύει βέβαια πάντα αυτό) 4
  • 5. INTERNET TECHNOLOGIES Εξωτερικά χαρακτηριστικά - Χαρακτηριστικά αυτόµατης αναζήτησης ιστοσελίδων Υποστήριξη πλαισίων Σύνταξη - Χαρτογράφηση εικόνων Αποτροπή αυτόµατης ανίχνευσης ιστοχώρου Robots Exclusion Protocol Η αποτροπή αυτή γίνεται µε την εφαρµογή µιας εντολής που προστίθεται σε ένα ειδικά καθορισµένο πεδίο των µετα-ετικετών στην αρχή του πηγαίου κώδικα της Γλώσσας Υπερκειµενικής Σήµανσης της ιστοσελίδας. Αποτροπή αυτόµατης ανίχνευσης ιστοσελίδας Robots Exclusion META tag Αναφορά από άλλες υπερσυνδέσµους Το χαρακτηριστικό αυτό απαντάται στις πλέον σύγχρονες Μ.Α., όπου αποτελεί ταυτόχρονα και ένα µέτρο για τον αν κάποιες ιστοσελίδες θα περιληφθούν στους καταλόγους και τα ευρετήρια αναζήτησης. Ανίχνευση ανανέωσης περιεχοµένου Ειδική προβολή µε πληρωµή INTERNET TECHNOLOGIES Εξωτερικά χαρακτηριστικά – χαρακτηριστικά σύνταξης ιστοσελίδων Σύνταξη “ορατού” κειµένου Αποβολή κοινών λέξεων Υποστήριξη πεδίων µετά-ετικετών ∆ηµιουργία παραγώγων λέξεων Εξωτερικά χαρακτηριστικά – χαρακτηριστικά κατάταξης αποτελεσµάτων Στάθµιση των πεδίων µετα-ετικετών Στάθµιση σε αναφορές από άλλους υπερσυνδέσµους Στάθµιση ανάλογα µε την επιλογή των αποτελεσµάτων Μέθοδοι σχετικής ανατροφοδότησης – Hotbot Εξωτερικά χαρακτηριστικά – Αναγνώριση και αντιµετώπιση τεχνικών Spam Αντιµετώπιση “αόρατου” κειµένου Αντιµετώπιση κειµένου ελάχιστου µεγέθους 5
  • 6. INTERNET TECHNOLOGIES Εσωτερικά χαρακτηριστικά ή λειτουργίες ανάκτησης πληροφορίας Μαθηµατικές Εντολές αναζήτησης – εντολές Boolean τύπου Τελεστής "AND" ή "+" Τελεστής "NOT" ή "-" Τελεστής "OR" Ο τελεστής "ADJ" ή "" "όρος1" ADJ "όρος2" ADJ "όρος3" Ο τελεστής "NEAR" Ο τελεστής "FAR" Φώλιασµα ή Σύνθεση τελεστών "Ακριβής Φράση" AND ("όρος1" OR "όρος2") Ενισχυµένες εντολές αναζήτησης Χρήση χαρακτήρων wildcards (Μπαλαντέρ) ("?","*") ca?s cars ή cats ca*s cars ή cats ή cameras ή careers INTERNET TECHNOLOGIES Εσωτερικά χαρακτηριστικά ή λειτουργίες ανάκτησης πληροφορίας Χαρακτηριστικά αναζήτησης Σχετικές αναζητήσεις Το χαρακτηριστικό αυτό παρέχεται για να βοηθήσει τους χρήστες ώστε να πραγµατοποιήσουν πιο συγκεκριµένες αναζητήσεις ή να τους προτείνει παρεµφερείς ερωτήσεις άλλων χρηστών. Έτσι, οι Μ.Α. που το υποστηρίζουν εµφανίζουν συνήθως µια λίστα µε υπερσυνδέσεις µε σχετικές αναζητήσεις χρησιµοποιώντας γνωστούς όρους, οδηγώντας τον χρήστη συχνά σε καλύτερα αποτελέσµατα. Συγκέντρωση αποτελεσµάτων Το χαρακτηριστικό αυτό αποτρέπει την ταυτόχρονη εµφάνιση πολλών ιστοσελίδων που ανήκουν στον ίδιο ιστοχώρο στα τελικά αποτελέσµατα. Έτσι παρουσιάζεται ένα πιο συνοπτικό και αντιπροσωπευτικό δείγµα απαντήσεων ενώ ο χρήστης έχει µεγαλύτερη πιθανότητα να ανακτήσει µια ενδιαφέρουσα πληροφορία γρήγορα. ∆ηµιουργία παραγώγων λέξεων Εσωτερική Αναζήτηση Οι Μ.Α. που υποστηρίζουν αυτήν τη λειτουργία επιτρέπουν στους χρήστες τους να πραγµατοποιήσουν επιπρόσθετες ερωτήσεις πάνω στο σύνολο των επιστρεφόµενων αποτελεσµάτων. Πρόκειται για µια πολύ χρήσιµη λειτουργία γιατί το σύνολο των αποτελεσµάτων παραµένει αναλλοίωτο, ενώ ταυτόχρονα “στενεύουν” οι αναζητήσεις του χρήστη. 6
  • 7. INTERNET TECHNOLOGIES Εσωτερικά χαρακτηριστικά ή λειτουργίες ανάκτησης πληροφορίας Χαρακτηριστικά αναζήτησης Αναζήτηση αποθηκευµένων ιστοσελίδων Το χαρακτηριστικό αυτό επιτρέπει την ανάκτηση ιστοσελίδων όπως έχουν συνταχθεί πριν ανανεωθούν εκ νέου από τους µηχανισµούς µιας υπηρεσίας αναζήτησης. Έτσι, είναι δυνατή η παρουσίαση ιστοσελίδων που δεν είναι πλέον ενεργές. (µια εφαρµογή στην επόµενη διαφάνεια) Μετάφραση ιστοσελίδας Συνήθως χρονοβόρα διαδικασίας, λόγω του ότι το αίτηµα στέλνεται από τον χρήστη στον διακοµιστή της Μ.Α., όπου πραγµατοποιείται σε πραγµατικό χρόνο η µετάφραση Έλεγχος και φιλτράρισµα “επικίνδυνου” περιεχοµένου INTERNET TECHNOLOGIES Google MSN 20000 18000 16000 amount of examined results 14000 12000 10000 8000 6000 4000 2000 0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 days Up-to-dateness rate through caching service (Google – MSN) 7
  • 8. INTERNET TECHNOLOGIES Εσωτερικά χαρακτηριστικά ή λειτουργίες ανάκτησης πληροφορίας Χαρακτηριστικά προσαρµογής απεικόνισης και προβολής Ταξινόµηση αποτελεσµάτων ανά ηµεροµηνία Ταξινόµηση αποτελεσµάτων σε καθορισµένο εύρος ηµεροµηνίας Προβολή ηµεροµηνίας δηµιουργίας ή µορφοποίησης της ιστοσελίδας Παροχή περιβάλλοντος ενισχυµένης αναζήτησης Παροχή βοήθειας INTERNET TECHNOLOGIES Ο Αλγόριθµος Page Rank (Google) 8
  • 9. INTERNET TECHNOLOGIES Επισκόπηση Αυτόµατων Μηχανών Αναζήτησης Google Αλγόριθµος PageRank [Brin, Page - 1998] πλήθος υπερσυνδέσµων που “δείχνουν” στο επιστρεφόµενο αποτέλεσµα (αναφορές) σηµαντικότητα υπερσυνδέσµων – βαρύτητα υπερσυνδέσµων Μεγαλύτερη κάλυψη, φιλικό περιβάλλον Ιστοσελίδα Άµεση 1η έµµεση Αναφορά αναφορά A C A, B, D B A C C A, B, D D 1. C 2. A 3. B 4. D http://www.iprcom.com/papers/pagerank INTERNET TECHNOLOGIES We assume page A has pages T1...Tn which point to it (i.e., are citations). The parameter d is a damping factor which can be set between 0 and 1. We usually set d to 0.85. C(A) is defined as the number of links going out of page A. The PageRank of a page A is given as follows: PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) T1 Tn A T2 citations outgoing links 9
  • 10. INTERNET TECHNOLOGIES ΑΛΓΟΡΙΘΜΟΣ HITS Ο Αλγόριθµος HITS (Hypertext Induced Topic Search) προτάθηκε από τον Kleinberg (1998). Προσπαθεί να διακρίνει authorities και hubs για ένα συγκεκριµένο θέµα (topic), αναλύοντας το σχετικό υπογράφο του Ιστού. Βασικές έννοιες Hub = µια σελίδα που δεν δίνει πολλές πληροφορίες για συγκεκριµένο θέµα, αλλά µας λεει που θα βρούµε αυτές τις πληροφορίες. πχ το www.autochanell.com είναι ένα hub για αυτοκίνητα. Authority = µια σελίδα που δίνει πληροφορία κύρους για κάποιο θέµα. πχ το http://www.bmw.com/ είναι ένα authority για το ερώτηµα “BMW cars”. INTERNET TECHNOLOGIES Ένα hub δείχνει σε πολλά authorities. Σε ένα authority αναφέρονται πολλά hubs. 10
  • 11. INTERNET TECHNOLOGIES Τα βήµατα που διακρίνονται σε αυτό τον αλγόριθµο είναι: 1) Θέτουµε µία ερώτηση στην search engine και λαµβάνουµε απ’ αυτήν ένα αρχικό σύνολο σελίδων (root set) - έστω πήραµε 200 σελίδες ως απάντηση στην ερώτηση. 2) ∆ηµιουργούµε ένα βασικό σύνολο (base set) S, το οποίο αποτελείται από το αρχικό σύνολο και όλες τις σελίδες που συνδέονται µε αυτό, µέσω links. Έστω έγιναν 1000 οι σελίδες. 3) Σε κάθε σελίδα p του συνόλου S αντιστοιχούν δύο τιµές - βάρη: µία τιµή authority Α(p) και µία τιµή hub Η(p). 4) Αρχικά θέτουµε όλες τις τιµές ίσες µε 1: Α(p) = Η(p) = 1 INTERNET TECHNOLOGIES 5) Ενηµερώνουµε τις αρχικές τιµές authority και hub κάθε σελίδας εφαρµόζοντας επαναληπτικά τις διαδικασίες In-degree και Out-degree. 6) Τα βάρη A(p) και H(p) όλων των σελίδων είναι κανονικοποιηµένα, δηλ αφού υπολογιστούν από τους προηγούµενους τύπους, διαιρούνται µε και αντίστοιχα. 11
  • 12. INTERNET TECHNOLOGIES Παράδειγµα: Στο παρακάτω σχήµα να γίνει page rank εφαρµόζοντας τον αλγόριθµο hits Θέτουµε αρχικά H(α) = H(β) = H(γ) = H(δ) = H(ε) = 1 A(α) = A(β) = A(γ) = A(δ) = A(ε) = 1 1η επανάληψη I – operation Ο – operation Α(α) = H(δ) = 1, Η(α) = A(δ) + A(ε) = 5, Α(β) = 0 H(β) = Α(δ) = 3 Α(γ) = 0 H(γ) = A(δ) + A(ε) = 5 Α(δ) = H(α) + H(β) + H(γ) = 3 H(δ) = Α(α) = 1 Α(ε) = H(α) + H(γ) = 2 H(ε) = 0 INTERNET TECHNOLOGIES Κάνουµε κανονικοποίηση Και οι νέες τιµές που προκύπτουν είναι οι ακόλουθες Α(α) = 1 / 3.74 = 0.267 Η(α) = 5 / 7.746 = 0.645 Α(β) = 0 H(β) = Α(δ) = 3 / 7.746 = 0.387 Α(γ) = 0 H(γ) = 5 / 7.746 = 0.645 Α(δ) = 3 / 3.74 = 0.802 Α(ε) = 2 / 3.74 = 0.535 H(δ) = 1 / 7.746 = 0.129 H(ε) = 0 12
  • 13. INTERNET TECHNOLOGIES 2η επανάληψη I – operation Ο – operation Α(α) = H(δ) = 0.129, Α(β) = 0 Η(α) = A(δ) + A(ε) = 2.967 Α(γ) = 0 H(β) = Α(δ) = 1.677 Α(δ) = H(α) + H(β) + H(γ) = 1.677 H(γ) = A(δ) + A(ε) = 2.967 Α(ε) = H(α) + H(γ) = 1.29 H(δ) = Α(α) = 0.129 H(ε) = 0 INTERNET TECHNOLOGIES Κάνουµε κανονικοποίηση Και οι νέες τιµές που προκύπτουν είναι οι ακόλουθες Α(α) = 0.129 / 2.12 = 0.061 Η(α) = 2.967 / 4.5 = 0.659 Α(β) = 0 H(β) = 1.677 / 4.5 = 0.373 Α(γ) = 0 H(γ) = 2.967 / 4.5 = 0.659 Α(δ) = 1.677 / 2.12 = 0.791 Α(ε) = 1.29 / 2.12 = 0.608 H(δ) = 0.129 / 4.5 = 0.029 H(ε) = 0 Οµοιώς συνεχίζουµε µέχρι ένα δεδοµένο σηµείο σύγκλισης... 13
  • 14. INTERNET TECHNOLOGIES 5η επανάληψη και κανονικοποίηση I – operation Ο – operation Α(α) = 0 Η(α) = 0.657 Α(β) = 0 H(β) = 0.369 Α(γ) = 0 H(γ) = A(δ) + A(ε) = 0.657 Α(δ) = 0.788 H(δ) = Α(α) = 0 Α(ε) = 0.615 H(ε) = 0 Τελική κατάταξη ? (ανάλογα µε την θεώρηση για το ρόλο των σελίδων Hub - Authority) Συµπεράσµατα Εκτελείται σε ένα σύνολο ανακτηµένων σελίδων και για κάθε query. Υπολογίζει authorities και hubs. Είναι εύκολος στον υπολογισµό αλλά η εκτέλεση σε πραγµατικό χρόνο είναι δύσκολη. 14