Einführung in das
Vektorraummodell
Dr. Philipp Mayr
GESIS – Leibniz-Institut für
Sozialwissenschaften
11.11.2014
1
Einführung: konzeptuelles Modell
Information Retrieval
• 1) Dokumente müssen in
Dokumentrepräsentationen transformiert wer...
Dank an Dr Ingo Frommholz für seinen
Foliensatz „Information Retrieval In A Nutshell“
3
Einführung: Indexierung
• Indexierungsprozess (4 typische Schritte)
1. Tokenisation
2. Stopwort-Entfernung
3. Stemming
4. ...
Einführung: boolesches Retrieval
• Gilt als das erste Retrievalmodell
• Keine Termgewichtung, es wird lediglich das Vorkom...
Zusammenfassung: boolesches
Retrieval
+ AND/OR/NOT mächtige Sprache um ein
Informationsbedürfnis in eine Anfrage zu
überse...
Vektorraummodell
7
Vektorraummodell
• Aufbau eines Vokabularraums (term space) aus
Termen durch Termextraktion, Stemming,
Stopwort-Entfernung...
Formale Beschreibung
• Eine Menge Terme in unserem Vokabular:
T = {t1, t2, …, tn}
• T spannt einen n-dimensionalen Vektorr...
Dokumente als Vektoren
• Beispieldokument aus sowiport
10
dj1 = Mauerbau = 1
dj2 = Mauerfall = 1
dj3 = Ursache = 1
dj4 = U...
Anfragen als Vektoren
11
q1 = Mauerfall = 2 besonders wichtiger Anfrageterm
q2 = Deutschland = 1 kommt in der Anfrage vor
...
Retrievalfunktion
• Die Retrievalfunktion berechnet einen Retrieval Status Value
(RSV) in dem die Vektorähnlichkeit gemess...
Beispiel
• Anfrage: “side effects of drugs on memory
and cognitive abilities”
13
Die Anfrageterme
„side effect“ und
„drug“...
Termgewichtung
• Im Vektorraummodell werden Dokumente und Anfragen als Vektoren
von Termgewichten beschrieben.
• Die Termg...
Termgewichtung: Beispiel
• Ein Dokument mit tf = 10 ist relevanter als ein
Dokument mit tf = 1
– Die Relevanz steigt nicht...
Zusammenfassung
+ Einfaches und intuitives Modell
+ Nutzerfreundlich (keine komplexen Booleschen Ausdrücke,
es werden nur ...
Interaktive Übung
17
1. Berechnen Sie den RVS
für jedes Dokument!
Skalarprodukt!
2. Welches Ranking erhalten
Sie?
3 Dokume...
Interaktive Übung
• Angenommen wir befinden uns im Booleschen Modell!
• Welche Dokumente erhalten wir für die Anfragen:
– ...
Interaktive Übung
• Angenommen die vier Bilder im unteren Beispiel sind
Dokumente. Wie können Sie Ihre Ergebnismenge ranke...
Danke für Ihre Aufmerksamkeit
Dr. Philipp Mayr
GESIS – Leibniz-Institut für Sozialwissenschaften
philipp.mayr@gesis.org
20
Nächste SlideShare
Wird geladen in …5
×

Einführung in das Vektorraummodell

379 Aufrufe

Veröffentlicht am

Es wird das Vektorraummodell beschrieben und mit einfachen Übungen vertieft.

Veröffentlicht in: Wissenschaft
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
379
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
11
Aktionen
Geteilt
0
Downloads
0
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie
  • RVS für d1= 1+1+0.5+0+0=2,5
    RVS für d2= 0+0+0.5+0+1=1,5
    RVS für d3= 1+2+0.5+0+0=3,5
  • D3
    D1 D2 D3 D4
    {}
  • Einführung in das Vektorraummodell

    1. 1. Einführung in das Vektorraummodell Dr. Philipp Mayr GESIS – Leibniz-Institut für Sozialwissenschaften 11.11.2014 1
    2. 2. Einführung: konzeptuelles Modell Information Retrieval • 1) Dokumente müssen in Dokumentrepräsentationen transformiert werden (Indexing) • 2) Nutzer formulieren eine Anfrage die zu ihrem Informationsbedürfnis passt • 3) Retrievalfunktion matched Anfrage und Dokumentrepräsentation und rankt eine Dokumentliste • 4) Relevance feedback kann die Suche verbessern 2 From Vickery & Vickery, 2004 „The man saw the pyramid on the hill with the telescope.“ 1) 2) 3) 4) Grundsätzliches Problem: Vagheit der Sprache
    3. 3. Dank an Dr Ingo Frommholz für seinen Foliensatz „Information Retrieval In A Nutshell“ 3
    4. 4. Einführung: Indexierung • Indexierungsprozess (4 typische Schritte) 1. Tokenisation 2. Stopwort-Entfernung 3. Stemming 4. Invertierter Index 4 • Index ist eine Datenstruktur um Suche zu beschleunigen • Ermöglicht die Prozessierung von Anfragen und Ergebnisrückgabe • Extrahierung von bedeutungsvollen Termen
    5. 5. Einführung: boolesches Retrieval • Gilt als das erste Retrievalmodell • Keine Termgewichtung, es wird lediglich das Vorkommen eines Terms in einem Dokument geprüft • Strikte Unterteilung in matchende und nicht-matchende Dokumente (wie in einer klass. Datenbank – select [Bedingung] from [Table] where [Bedingung]) • Boolesches retrieval system: listet Dokumente die Keywords in der folgenden Form enthalten • Informationsbedürfnis: “Retrieval systems for multimedia objects, in particular images” • Query: retrieval system AND multimedia AND images 5
    6. 6. Zusammenfassung: boolesches Retrieval + AND/OR/NOT mächtige Sprache um ein Informationsbedürfnis in eine Anfrage zu übersetzen (sehr ausdrucksstark) – Anfrageformulierung als boolescher Ausdruck oft zu schwer für unerfahrene Nutzer – Schwierigkeit die Größe der Antwortmenge zu kontrollieren – Experimente zeigen schlechte Retrievalqualität 6
    7. 7. Vektorraummodell 7
    8. 8. Vektorraummodell • Aufbau eines Vokabularraums (term space) aus Termen durch Termextraktion, Stemming, Stopwort-Entfernung • Der Vokabularraum kann durch einen Vektorenraum dargestellt werden – Jede Dimension repräsentiert einen Term in unserem Vokabular – Wenn wir n Terme in unserem Vokabularraum haben, erhalten wir einen n-dimensionalen Vektorenraum • Jedes Dokument und jede Anfrage wird durch einen Vektor im Vokabularraum repräsentiert 8
    9. 9. Formale Beschreibung • Eine Menge Terme in unserem Vokabular: T = {t1, t2, …, tn} • T spannt einen n-dimensionalen Vektorraum • Dokument dj wird repräsentiert durch einen Vektor von Dokumenttermgewichten • Anfrage q wird repräsentiert durch einen Vektor von Anfragetermgewichten 9 Gewicht von Term t2 in Dokument dj q1 ist das Gewicht von Anfrageterm t1
    10. 10. Dokumente als Vektoren • Beispieldokument aus sowiport 10 dj1 = Mauerbau = 1 dj2 = Mauerfall = 1 dj3 = Ursache = 1 dj4 = UdSSR = 1 dj5 = Apfel = 0
    11. 11. Anfragen als Vektoren 11 q1 = Mauerfall = 2 besonders wichtiger Anfrageterm q2 = Deutschland = 1 kommt in der Anfrage vor q3 = Berlin = 1 kommt in der Anfrage vor q3 = Apfel = 0 befindet sich nicht in der Anfrage
    12. 12. Retrievalfunktion • Die Retrievalfunktion berechnet einen Retrieval Status Value (RSV) in dem die Vektorähnlichkeit gemessen wird, z.B. über das Skalarprodukt zwischen Dokument- und Anfragevektor 12 Dokument 1 Dokument 2 Anfrage Das Ranking der Dokumente erfolgt absteigend nach dem RSV.
    13. 13. Beispiel • Anfrage: “side effects of drugs on memory and cognitive abilities” 13 Die Anfrageterme „side effect“ und „drug“ sind besonders wichtig, daher Wert 2 2x1 =2 2x1 =2 1x1 =1 1x0 =0 --------- 5
    14. 14. Termgewichtung • Im Vektorraummodell werden Dokumente und Anfragen als Vektoren von Termgewichten beschrieben. • Die Termgewichte sollten reflektieren ob ein Term ein geeigneter Deskriptor sein kann. Je höher das Gewicht desto wichtiger ist der Term für ein Dokument. • Annahmen – Je häufiger ein Term in einem Dokument vorkommt, desto wichtiger ist er zur Beschreibung des Dokuments (-> term frequency tf ) – Je seltener ein Term in Dokumenten vorkommt, desto geeigneter ist er zur Unterscheidung (Discrimination) zwischen Dokumenten (-> inverse Dokumenthäufigkeit idf ) • Zusatz – tf und idf-Werte können in die Vektoren eingerechnet werden – Es können auch Dokument-unabhängige Gewichte zugewiesen werden. 14
    15. 15. Termgewichtung: Beispiel • Ein Dokument mit tf = 10 ist relevanter als ein Dokument mit tf = 1 – Die Relevanz steigt nicht proportional mit der Termfrequenz • Seltene Terme sind informativer als häufige Terme. – Stellen Sie sich einen sehr seltenen Anfrageterm vor, z.B. arachnozentrisch. – Ein Dokument, dass diesen Term beinhaltet ist mit hoher Wahrscheinlichkeit sehr relevant für die Anfrage nach arachnozentrisch. 15
    16. 16. Zusammenfassung + Einfaches und intuitives Modell + Nutzerfreundlich (keine komplexen Booleschen Ausdrücke, es werden nur Anfrageterme benötigt) + Produziert ein Ranking von Dokumenten (best match), keinen scharfen Schnitt wie im Booleschen Modell (exact match) + Gute Ergebnisse in Kombination mit tf idf Termgewichtung – Weniger ausdrucksstark als das Boolesche Modell (Nutzer müssen sich weniger Gedanken über die Spezifikation ihres Informationsbedürfnisses machen) – Schwierigkeit Dokumenteigenschaften hervorzuheben (z.B. wenn Terme im Titel eines Dokuments hervorgehoben werden sollen) 16
    17. 17. Interaktive Übung 17 1. Berechnen Sie den RVS für jedes Dokument! Skalarprodukt! 2. Welches Ranking erhalten Sie? 3 Dokumente repräsentiert durch die folgenden Vektoren. Auflösung: RVS für d1= 1+1+0.5+0+0=2,5 RVS für d2= 0+0+0.5+0+1=1,5 RVS für d3= 1+2+0.5+0+0=3,5
    18. 18. Interaktive Übung • Angenommen wir befinden uns im Booleschen Modell! • Welche Dokumente erhalten wir für die Anfragen: – 1) „side effect“ AND „drug“ AND „memory“ AND „cognitive ability“? – 2) „side effect“ OR „drug“ – 3) „drug“ NOT „side effect“ 18 Terme Häufigkeit in den Dokumenten Auflösung: 1) d3 2) d1 d2 d3 d4 3) {}
    19. 19. Interaktive Übung • Angenommen die vier Bilder im unteren Beispiel sind Dokumente. Wie können Sie Ihre Ergebnismenge ranken? • Denken Sie z.B. an Instrumente der inhaltlichen Erschließung wie Thesauri und Klassifikationen! 19 Anfrage: The man saw the pyramid on the hill with the telescope. From Vickery & Vickery, 2004
    20. 20. Danke für Ihre Aufmerksamkeit Dr. Philipp Mayr GESIS – Leibniz-Institut für Sozialwissenschaften philipp.mayr@gesis.org 20

    ×