2. Einführung: konzeptuelles Modell
Information Retrieval
• 1) Dokumente müssen in
Dokumentrepräsentationen transformiert werden
(Indexing)
• 2) Nutzer formulieren eine Anfrage die zu ihrem
Informationsbedürfnis passt
• 3) Retrievalfunktion matched Anfrage und
Dokumentrepräsentation und rankt eine
Dokumentliste
• 4) Relevance feedback kann die Suche verbessern
2
From Vickery & Vickery, 2004
„The man saw the pyramid on the
hill with the telescope.“
1) 2)
3)
4)
Grundsätzliches Problem:
Vagheit der Sprache
3. Dank an Dr Ingo Frommholz für seinen
Foliensatz „Information Retrieval In A Nutshell“
3
4. Einführung: Indexierung
• Indexierungsprozess (4 typische Schritte)
1. Tokenisation
2. Stopwort-Entfernung
3. Stemming
4. Invertierter Index
4
• Index ist eine Datenstruktur um Suche zu
beschleunigen
• Ermöglicht die Prozessierung von Anfragen und
Ergebnisrückgabe
• Extrahierung von bedeutungsvollen Termen
5. Einführung: boolesches Retrieval
• Gilt als das erste Retrievalmodell
• Keine Termgewichtung, es wird lediglich das Vorkommen eines Terms in
einem Dokument geprüft
• Strikte Unterteilung in matchende und nicht-matchende Dokumente (wie
in einer klass. Datenbank –
select [Bedingung] from [Table] where [Bedingung])
• Boolesches retrieval system: listet Dokumente die Keywords in der
folgenden Form enthalten
• Informationsbedürfnis: “Retrieval systems for multimedia objects, in
particular images”
• Query: retrieval system AND multimedia AND images
5
6. Zusammenfassung: boolesches
Retrieval
+ AND/OR/NOT mächtige Sprache um ein
Informationsbedürfnis in eine Anfrage zu
übersetzen (sehr ausdrucksstark)
– Anfrageformulierung als boolescher Ausdruck
oft zu schwer für unerfahrene Nutzer
– Schwierigkeit die Größe der Antwortmenge zu
kontrollieren
– Experimente zeigen schlechte Retrievalqualität
6
8. Vektorraummodell
• Aufbau eines Vokabularraums (term space) aus
Termen durch Termextraktion, Stemming,
Stopwort-Entfernung
• Der Vokabularraum kann durch einen
Vektorenraum dargestellt werden
– Jede Dimension repräsentiert einen Term in unserem
Vokabular
– Wenn wir n Terme in unserem Vokabularraum haben,
erhalten wir einen n-dimensionalen Vektorenraum
• Jedes Dokument und jede Anfrage wird durch
einen Vektor im Vokabularraum repräsentiert
8
9. Formale Beschreibung
• Eine Menge Terme in unserem Vokabular:
T = {t1, t2, …, tn}
• T spannt einen n-dimensionalen Vektorraum
• Dokument dj wird repräsentiert durch einen Vektor
von Dokumenttermgewichten
• Anfrage q wird repräsentiert durch einen Vektor von
Anfragetermgewichten
9
Gewicht von Term t2
in Dokument dj
q1 ist das
Gewicht von
Anfrageterm t1
11. Anfragen als Vektoren
11
q1 = Mauerfall = 2 besonders wichtiger Anfrageterm
q2 = Deutschland = 1 kommt in der Anfrage vor
q3 = Berlin = 1 kommt in der Anfrage vor
q3 = Apfel = 0 befindet sich nicht in der Anfrage
12. Retrievalfunktion
• Die Retrievalfunktion berechnet einen Retrieval Status Value
(RSV) in dem die Vektorähnlichkeit gemessen wird, z.B. über
das Skalarprodukt zwischen Dokument- und Anfragevektor
12
Dokument 1
Dokument 2
Anfrage
Das Ranking der
Dokumente erfolgt
absteigend nach dem
RSV.
13. Beispiel
• Anfrage: “side effects of drugs on memory
and cognitive abilities”
13
Die Anfrageterme
„side effect“ und
„drug“ sind
besonders wichtig,
daher Wert 2
2x1 =2
2x1 =2
1x1 =1
1x0 =0
---------
5
14. Termgewichtung
• Im Vektorraummodell werden Dokumente und Anfragen als Vektoren
von Termgewichten beschrieben.
• Die Termgewichte sollten reflektieren ob ein Term ein geeigneter
Deskriptor sein kann. Je höher das Gewicht desto wichtiger ist der
Term für ein Dokument.
• Annahmen
– Je häufiger ein Term in einem Dokument vorkommt, desto wichtiger ist
er zur Beschreibung des Dokuments (-> term frequency tf )
– Je seltener ein Term in Dokumenten vorkommt, desto geeigneter ist er
zur Unterscheidung (Discrimination) zwischen Dokumenten (-> inverse
Dokumenthäufigkeit idf )
• Zusatz
– tf und idf-Werte können in die Vektoren eingerechnet werden
– Es können auch Dokument-unabhängige Gewichte zugewiesen werden.
14
15. Termgewichtung: Beispiel
• Ein Dokument mit tf = 10 ist relevanter als ein
Dokument mit tf = 1
– Die Relevanz steigt nicht proportional mit der
Termfrequenz
• Seltene Terme sind informativer als häufige
Terme.
– Stellen Sie sich einen sehr seltenen Anfrageterm vor,
z.B. arachnozentrisch.
– Ein Dokument, dass diesen Term beinhaltet ist mit
hoher Wahrscheinlichkeit sehr relevant für die
Anfrage nach arachnozentrisch.
15
16. Zusammenfassung
+ Einfaches und intuitives Modell
+ Nutzerfreundlich (keine komplexen Booleschen Ausdrücke,
es werden nur Anfrageterme benötigt)
+ Produziert ein Ranking von Dokumenten (best match), keinen
scharfen Schnitt wie im Booleschen Modell (exact match)
+ Gute Ergebnisse in Kombination mit tf idf Termgewichtung
– Weniger ausdrucksstark als das Boolesche Modell (Nutzer
müssen sich weniger Gedanken über die Spezifikation ihres
Informationsbedürfnisses machen)
– Schwierigkeit Dokumenteigenschaften hervorzuheben (z.B.
wenn Terme im Titel eines Dokuments hervorgehoben werden
sollen)
16
17. Interaktive Übung
17
1. Berechnen Sie den RVS
für jedes Dokument!
Skalarprodukt!
2. Welches Ranking erhalten
Sie?
3 Dokumente
repräsentiert durch die
folgenden Vektoren.
Auflösung:
RVS für d1= 1+1+0.5+0+0=2,5
RVS für d2= 0+0+0.5+0+1=1,5
RVS für d3= 1+2+0.5+0+0=3,5
18. Interaktive Übung
• Angenommen wir befinden uns im Booleschen Modell!
• Welche Dokumente erhalten wir für die Anfragen:
– 1) „side effect“ AND „drug“ AND „memory“ AND „cognitive ability“?
– 2) „side effect“ OR „drug“
– 3) „drug“ NOT „side effect“
18
Terme
Häufigkeit in den Dokumenten
Auflösung:
1) d3
2) d1 d2 d3 d4
3) {}
19. Interaktive Übung
• Angenommen die vier Bilder im unteren Beispiel sind
Dokumente. Wie können Sie Ihre Ergebnismenge ranken?
• Denken Sie z.B. an Instrumente der inhaltlichen Erschließung
wie Thesauri und Klassifikationen!
19
Anfrage: The man saw the pyramid on the hill with the telescope.
From Vickery & Vickery, 2004
20. Danke für Ihre Aufmerksamkeit
Dr. Philipp Mayr
GESIS – Leibniz-Institut für Sozialwissenschaften
philipp.mayr@gesis.org
20
Hinweis der Redaktion
RVS für d1= 1+1+0.5+0+0=2,5
RVS für d2= 0+0+0.5+0+1=1,5
RVS für d3= 1+2+0.5+0+0=3,5