SlideShare ist ein Scribd-Unternehmen logo
1 von 20
Einführung in das
Vektorraummodell
Dr. Philipp Mayr
GESIS – Leibniz-Institut für
Sozialwissenschaften
11.11.2014
1
Einführung: konzeptuelles Modell
Information Retrieval
• 1) Dokumente müssen in
Dokumentrepräsentationen transformiert werden
(Indexing)
• 2) Nutzer formulieren eine Anfrage die zu ihrem
Informationsbedürfnis passt
• 3) Retrievalfunktion matched Anfrage und
Dokumentrepräsentation und rankt eine
Dokumentliste
• 4) Relevance feedback kann die Suche verbessern
2
From Vickery & Vickery, 2004
„The man saw the pyramid on the
hill with the telescope.“
1) 2)
3)
4)
Grundsätzliches Problem:
Vagheit der Sprache
Dank an Dr Ingo Frommholz für seinen
Foliensatz „Information Retrieval In A Nutshell“
3
Einführung: Indexierung
• Indexierungsprozess (4 typische Schritte)
1. Tokenisation
2. Stopwort-Entfernung
3. Stemming
4. Invertierter Index
4
• Index ist eine Datenstruktur um Suche zu
beschleunigen
• Ermöglicht die Prozessierung von Anfragen und
Ergebnisrückgabe
• Extrahierung von bedeutungsvollen Termen
Einführung: boolesches Retrieval
• Gilt als das erste Retrievalmodell
• Keine Termgewichtung, es wird lediglich das Vorkommen eines Terms in
einem Dokument geprüft
• Strikte Unterteilung in matchende und nicht-matchende Dokumente (wie
in einer klass. Datenbank –
select [Bedingung] from [Table] where [Bedingung])
• Boolesches retrieval system: listet Dokumente die Keywords in der
folgenden Form enthalten
• Informationsbedürfnis: “Retrieval systems for multimedia objects, in
particular images”
• Query: retrieval system AND multimedia AND images
5
Zusammenfassung: boolesches
Retrieval
+ AND/OR/NOT mächtige Sprache um ein
Informationsbedürfnis in eine Anfrage zu
übersetzen (sehr ausdrucksstark)
– Anfrageformulierung als boolescher Ausdruck
oft zu schwer für unerfahrene Nutzer
– Schwierigkeit die Größe der Antwortmenge zu
kontrollieren
– Experimente zeigen schlechte Retrievalqualität
6
Vektorraummodell
7
Vektorraummodell
• Aufbau eines Vokabularraums (term space) aus
Termen durch Termextraktion, Stemming,
Stopwort-Entfernung
• Der Vokabularraum kann durch einen
Vektorenraum dargestellt werden
– Jede Dimension repräsentiert einen Term in unserem
Vokabular
– Wenn wir n Terme in unserem Vokabularraum haben,
erhalten wir einen n-dimensionalen Vektorenraum
• Jedes Dokument und jede Anfrage wird durch
einen Vektor im Vokabularraum repräsentiert
8
Formale Beschreibung
• Eine Menge Terme in unserem Vokabular:
T = {t1, t2, …, tn}
• T spannt einen n-dimensionalen Vektorraum
• Dokument dj wird repräsentiert durch einen Vektor
von Dokumenttermgewichten
• Anfrage q wird repräsentiert durch einen Vektor von
Anfragetermgewichten
9
Gewicht von Term t2
in Dokument dj
q1 ist das
Gewicht von
Anfrageterm t1
Dokumente als Vektoren
• Beispieldokument aus sowiport
10
dj1 = Mauerbau = 1
dj2 = Mauerfall = 1
dj3 = Ursache = 1
dj4 = UdSSR = 1
dj5 = Apfel = 0
Anfragen als Vektoren
11
q1 = Mauerfall = 2 besonders wichtiger Anfrageterm
q2 = Deutschland = 1 kommt in der Anfrage vor
q3 = Berlin = 1 kommt in der Anfrage vor
q3 = Apfel = 0 befindet sich nicht in der Anfrage
Retrievalfunktion
• Die Retrievalfunktion berechnet einen Retrieval Status Value
(RSV) in dem die Vektorähnlichkeit gemessen wird, z.B. über
das Skalarprodukt zwischen Dokument- und Anfragevektor
12
Dokument 1
Dokument 2
Anfrage
Das Ranking der
Dokumente erfolgt
absteigend nach dem
RSV.
Beispiel
• Anfrage: “side effects of drugs on memory
and cognitive abilities”
13
Die Anfrageterme
„side effect“ und
„drug“ sind
besonders wichtig,
daher Wert 2
2x1 =2
2x1 =2
1x1 =1
1x0 =0
---------
5
Termgewichtung
• Im Vektorraummodell werden Dokumente und Anfragen als Vektoren
von Termgewichten beschrieben.
• Die Termgewichte sollten reflektieren ob ein Term ein geeigneter
Deskriptor sein kann. Je höher das Gewicht desto wichtiger ist der
Term für ein Dokument.
• Annahmen
– Je häufiger ein Term in einem Dokument vorkommt, desto wichtiger ist
er zur Beschreibung des Dokuments (-> term frequency tf )
– Je seltener ein Term in Dokumenten vorkommt, desto geeigneter ist er
zur Unterscheidung (Discrimination) zwischen Dokumenten (-> inverse
Dokumenthäufigkeit idf )
• Zusatz
– tf und idf-Werte können in die Vektoren eingerechnet werden
– Es können auch Dokument-unabhängige Gewichte zugewiesen werden.
14
Termgewichtung: Beispiel
• Ein Dokument mit tf = 10 ist relevanter als ein
Dokument mit tf = 1
– Die Relevanz steigt nicht proportional mit der
Termfrequenz
• Seltene Terme sind informativer als häufige
Terme.
– Stellen Sie sich einen sehr seltenen Anfrageterm vor,
z.B. arachnozentrisch.
– Ein Dokument, dass diesen Term beinhaltet ist mit
hoher Wahrscheinlichkeit sehr relevant für die
Anfrage nach arachnozentrisch.
15
Zusammenfassung
+ Einfaches und intuitives Modell
+ Nutzerfreundlich (keine komplexen Booleschen Ausdrücke,
es werden nur Anfrageterme benötigt)
+ Produziert ein Ranking von Dokumenten (best match), keinen
scharfen Schnitt wie im Booleschen Modell (exact match)
+ Gute Ergebnisse in Kombination mit tf idf Termgewichtung
– Weniger ausdrucksstark als das Boolesche Modell (Nutzer
müssen sich weniger Gedanken über die Spezifikation ihres
Informationsbedürfnisses machen)
– Schwierigkeit Dokumenteigenschaften hervorzuheben (z.B.
wenn Terme im Titel eines Dokuments hervorgehoben werden
sollen)
16
Interaktive Übung
17
1. Berechnen Sie den RVS
für jedes Dokument!
Skalarprodukt!
2. Welches Ranking erhalten
Sie?
3 Dokumente
repräsentiert durch die
folgenden Vektoren.
Auflösung:
RVS für d1= 1+1+0.5+0+0=2,5
RVS für d2= 0+0+0.5+0+1=1,5
RVS für d3= 1+2+0.5+0+0=3,5
Interaktive Übung
• Angenommen wir befinden uns im Booleschen Modell!
• Welche Dokumente erhalten wir für die Anfragen:
– 1) „side effect“ AND „drug“ AND „memory“ AND „cognitive ability“?
– 2) „side effect“ OR „drug“
– 3) „drug“ NOT „side effect“
18
Terme
Häufigkeit in den Dokumenten
Auflösung:
1) d3
2) d1 d2 d3 d4
3) {}
Interaktive Übung
• Angenommen die vier Bilder im unteren Beispiel sind
Dokumente. Wie können Sie Ihre Ergebnismenge ranken?
• Denken Sie z.B. an Instrumente der inhaltlichen Erschließung
wie Thesauri und Klassifikationen!
19
Anfrage: The man saw the pyramid on the hill with the telescope.
From Vickery & Vickery, 2004
Danke für Ihre Aufmerksamkeit
Dr. Philipp Mayr
GESIS – Leibniz-Institut für Sozialwissenschaften
philipp.mayr@gesis.org
20

Weitere ähnliche Inhalte

Andere mochten auch

Industrie 4.0
Industrie 4.0Industrie 4.0
Industrie 4.0GESIS
 
Document similarity with vector space model
Document similarity with vector space modelDocument similarity with vector space model
Document similarity with vector space modeldalal404
 
Die Geschichten Des Nobelpreises PräSentation
Die Geschichten Des Nobelpreises PräSentationDie Geschichten Des Nobelpreises PräSentation
Die Geschichten Des Nobelpreises PräSentationJoerg Hartmann
 
Arte
ArteArte
ArteTochy
 
Beteiligungsmöglichkeiten auf Augenhöhe
Beteiligungsmöglichkeiten auf AugenhöheBeteiligungsmöglichkeiten auf Augenhöhe
Beteiligungsmöglichkeiten auf AugenhöheSocialbar
 
MindMeister's Eco Kongress Pitch
MindMeister's Eco Kongress PitchMindMeister's Eco Kongress Pitch
MindMeister's Eco Kongress Pitchmindmeister
 
Africa
AfricaAfrica
Africasasia
 
Kunst Mal Anders
Kunst Mal AndersKunst Mal Anders
Kunst Mal AndersCaro Lina
 
Social bar migranten und (online ) partizipation
Social bar migranten und (online ) partizipationSocial bar migranten und (online ) partizipation
Social bar migranten und (online ) partizipationSocialbar
 
Energiewende in Deutschland: Industriepolitik neu denken - Einführung
Energiewende in Deutschland: Industriepolitik neu denken - EinführungEnergiewende in Deutschland: Industriepolitik neu denken - Einführung
Energiewende in Deutschland: Industriepolitik neu denken - EinführungErnst Ulrich von Weizsäcker
 
Presen
PresenPresen
Presenilmac
 
Keynote (DE): Beyond Budgeting Transformation, at Cognos Performance 2008, Ma...
Keynote (DE): Beyond Budgeting Transformation, at Cognos Performance 2008, Ma...Keynote (DE): Beyond Budgeting Transformation, at Cognos Performance 2008, Ma...
Keynote (DE): Beyond Budgeting Transformation, at Cognos Performance 2008, Ma...Gebhard Borck
 
Die Aller Neuste Terroristengruppe Der Alcaida
Die Aller Neuste Terroristengruppe Der AlcaidaDie Aller Neuste Terroristengruppe Der Alcaida
Die Aller Neuste Terroristengruppe Der Alcaidamariane m
 
Ic 2010-panel-pres-primus
Ic 2010-panel-pres-primusIc 2010-panel-pres-primus
Ic 2010-panel-pres-primusRobert Ponta
 
German Doctors e.V. Socialbar Frankfurt
German Doctors e.V. Socialbar FrankfurtGerman Doctors e.V. Socialbar Frankfurt
German Doctors e.V. Socialbar FrankfurtSocialbar
 

Andere mochten auch (20)

Industrie 4.0
Industrie 4.0Industrie 4.0
Industrie 4.0
 
Document similarity with vector space model
Document similarity with vector space modelDocument similarity with vector space model
Document similarity with vector space model
 
Die Geschichten Des Nobelpreises PräSentation
Die Geschichten Des Nobelpreises PräSentationDie Geschichten Des Nobelpreises PräSentation
Die Geschichten Des Nobelpreises PräSentation
 
Arte
ArteArte
Arte
 
Betacodex2010 06-14
Betacodex2010 06-14Betacodex2010 06-14
Betacodex2010 06-14
 
Beteiligungsmöglichkeiten auf Augenhöhe
Beteiligungsmöglichkeiten auf AugenhöheBeteiligungsmöglichkeiten auf Augenhöhe
Beteiligungsmöglichkeiten auf Augenhöhe
 
MindMeister's Eco Kongress Pitch
MindMeister's Eco Kongress PitchMindMeister's Eco Kongress Pitch
MindMeister's Eco Kongress Pitch
 
Top de las 12 mejores albercas
Top de las 12 mejores albercasTop de las 12 mejores albercas
Top de las 12 mejores albercas
 
Africa
AfricaAfrica
Africa
 
vhs Nobelpreise II
vhs Nobelpreise IIvhs Nobelpreise II
vhs Nobelpreise II
 
Kunst Mal Anders
Kunst Mal AndersKunst Mal Anders
Kunst Mal Anders
 
Social bar migranten und (online ) partizipation
Social bar migranten und (online ) partizipationSocial bar migranten und (online ) partizipation
Social bar migranten und (online ) partizipation
 
Energiewende in Deutschland: Industriepolitik neu denken - Einführung
Energiewende in Deutschland: Industriepolitik neu denken - EinführungEnergiewende in Deutschland: Industriepolitik neu denken - Einführung
Energiewende in Deutschland: Industriepolitik neu denken - Einführung
 
100.000 Jobs
100.000 Jobs100.000 Jobs
100.000 Jobs
 
Presen
PresenPresen
Presen
 
Keynote (DE): Beyond Budgeting Transformation, at Cognos Performance 2008, Ma...
Keynote (DE): Beyond Budgeting Transformation, at Cognos Performance 2008, Ma...Keynote (DE): Beyond Budgeting Transformation, at Cognos Performance 2008, Ma...
Keynote (DE): Beyond Budgeting Transformation, at Cognos Performance 2008, Ma...
 
Die Aller Neuste Terroristengruppe Der Alcaida
Die Aller Neuste Terroristengruppe Der AlcaidaDie Aller Neuste Terroristengruppe Der Alcaida
Die Aller Neuste Terroristengruppe Der Alcaida
 
Ic 2010-panel-pres-primus
Ic 2010-panel-pres-primusIc 2010-panel-pres-primus
Ic 2010-panel-pres-primus
 
German Doctors e.V. Socialbar Frankfurt
German Doctors e.V. Socialbar FrankfurtGerman Doctors e.V. Socialbar Frankfurt
German Doctors e.V. Socialbar Frankfurt
 
globo-study Sprachreisen - Katalog 2014
globo-study Sprachreisen - Katalog 2014globo-study Sprachreisen - Katalog 2014
globo-study Sprachreisen - Katalog 2014
 

Mehr von GESIS

10th BIR Workshop @ECIR 2020: introduction
10th  BIR Workshop @ECIR 2020: introduction10th  BIR Workshop @ECIR 2020: introduction
10th BIR Workshop @ECIR 2020: introductionGESIS
 
From closed to open access: A case study of flipped journals
From closed to open access: A case study of flipped journalsFrom closed to open access: A case study of flipped journals
From closed to open access: A case study of flipped journalsGESIS
 
Highly cited references in PLOS ONE and their in-text usage over time
Highly cited references in PLOS ONE and their in-text usage over timeHighly cited references in PLOS ONE and their in-text usage over time
Highly cited references in PLOS ONE and their in-text usage over timeGESIS
 
4th Joint Workshop on Bibliometric-enhanced Information Retrieval and Natural...
4th Joint Workshop on Bibliometric-enhanced Information Retrieval and Natural...4th Joint Workshop on Bibliometric-enhanced Information Retrieval and Natural...
4th Joint Workshop on Bibliometric-enhanced Information Retrieval and Natural...GESIS
 
Bibliometric-enhanced Information Retrieval: Connecting IR with Bibliometrics
Bibliometric-enhanced Information Retrieval: Connecting IR with BibliometricsBibliometric-enhanced Information Retrieval: Connecting IR with Bibliometrics
Bibliometric-enhanced Information Retrieval: Connecting IR with BibliometricsGESIS
 
Analyzing the network structure and gender differences of the “NKOS community”
Analyzing the network structure and gender differences of the “NKOS community”Analyzing the network structure and gender differences of the “NKOS community”
Analyzing the network structure and gender differences of the “NKOS community”GESIS
 
Recent advances in the project EXCITE – Extraction of Citations from PDF Docu...
Recent advances in the project EXCITE – Extraction of Citations from PDF Docu...Recent advances in the project EXCITE – Extraction of Citations from PDF Docu...
Recent advances in the project EXCITE – Extraction of Citations from PDF Docu...GESIS
 
Searching beyond datasets in the Social Sciences
Searching beyond datasets in the Social SciencesSearching beyond datasets in the Social Sciences
Searching beyond datasets in the Social SciencesGESIS
 
Bedeutung von Text Mining am Beispiel der Sozialwissenschaften
Bedeutung von Text Mining am Beispiel der SozialwissenschaftenBedeutung von Text Mining am Beispiel der Sozialwissenschaften
Bedeutung von Text Mining am Beispiel der SozialwissenschaftenGESIS
 
Contextualised Browsing in a Digital Library’s Living Lab
Contextualised Browsing in a Digital Library’s Living LabContextualised Browsing in a Digital Library’s Living Lab
Contextualised Browsing in a Digital Library’s Living LabGESIS
 
41st European Conference on Information Retrieval (ECIR 2019)
41st European Conference on Information Retrieval (ECIR 2019)41st European Conference on Information Retrieval (ECIR 2019)
41st European Conference on Information Retrieval (ECIR 2019)GESIS
 
Offenes kollaboratives Schreiben: Eine „Open Science“-Infrastruktur am Beispi...
Offenes kollaboratives Schreiben: Eine „Open Science“-Infrastruktur am Beispi...Offenes kollaboratives Schreiben: Eine „Open Science“-Infrastruktur am Beispi...
Offenes kollaboratives Schreiben: Eine „Open Science“-Infrastruktur am Beispi...GESIS
 
A Complete Year of User Retrieval Sessions in a Social Sciences Academic Sear...
A Complete Year of User Retrieval Sessions in a Social Sciences Academic Sear...A Complete Year of User Retrieval Sessions in a Social Sciences Academic Sear...
A Complete Year of User Retrieval Sessions in a Social Sciences Academic Sear...GESIS
 
Challenges in Extracting and Managing References
Challenges in Extracting and Managing ReferencesChallenges in Extracting and Managing References
Challenges in Extracting and Managing ReferencesGESIS
 
Opening Scholarly Communication in Social Sciences by Connecting Collaborativ...
Opening Scholarly Communication in Social Sciences by Connecting Collaborativ...Opening Scholarly Communication in Social Sciences by Connecting Collaborativ...
Opening Scholarly Communication in Social Sciences by Connecting Collaborativ...GESIS
 
Measuring the usefulness of Knowledge Organization Systems in Information Ret...
Measuring the usefulness of Knowledge Organization Systems in Information Ret...Measuring the usefulness of Knowledge Organization Systems in Information Ret...
Measuring the usefulness of Knowledge Organization Systems in Information Ret...GESIS
 
Recent Advances in Bibliometric-Enhanced Information Retrieval
Recent Advances in Bibliometric-Enhanced Information RetrievalRecent Advances in Bibliometric-Enhanced Information Retrieval
Recent Advances in Bibliometric-Enhanced Information RetrievalGESIS
 
Analyzing the research output presented at European Networked Knowledge Organ...
Analyzing the research output presented at European Networked Knowledge Organ...Analyzing the research output presented at European Networked Knowledge Organ...
Analyzing the research output presented at European Networked Knowledge Organ...GESIS
 
Introduction to the 15th NKOS workshop @TPDL2016
Introduction to the 15th NKOS workshop @TPDL2016Introduction to the 15th NKOS workshop @TPDL2016
Introduction to the 15th NKOS workshop @TPDL2016GESIS
 
Recent applications of Knowledge Organization Systems
Recent applications of Knowledge Organization SystemsRecent applications of Knowledge Organization Systems
Recent applications of Knowledge Organization SystemsGESIS
 

Mehr von GESIS (20)

10th BIR Workshop @ECIR 2020: introduction
10th  BIR Workshop @ECIR 2020: introduction10th  BIR Workshop @ECIR 2020: introduction
10th BIR Workshop @ECIR 2020: introduction
 
From closed to open access: A case study of flipped journals
From closed to open access: A case study of flipped journalsFrom closed to open access: A case study of flipped journals
From closed to open access: A case study of flipped journals
 
Highly cited references in PLOS ONE and their in-text usage over time
Highly cited references in PLOS ONE and their in-text usage over timeHighly cited references in PLOS ONE and their in-text usage over time
Highly cited references in PLOS ONE and their in-text usage over time
 
4th Joint Workshop on Bibliometric-enhanced Information Retrieval and Natural...
4th Joint Workshop on Bibliometric-enhanced Information Retrieval and Natural...4th Joint Workshop on Bibliometric-enhanced Information Retrieval and Natural...
4th Joint Workshop on Bibliometric-enhanced Information Retrieval and Natural...
 
Bibliometric-enhanced Information Retrieval: Connecting IR with Bibliometrics
Bibliometric-enhanced Information Retrieval: Connecting IR with BibliometricsBibliometric-enhanced Information Retrieval: Connecting IR with Bibliometrics
Bibliometric-enhanced Information Retrieval: Connecting IR with Bibliometrics
 
Analyzing the network structure and gender differences of the “NKOS community”
Analyzing the network structure and gender differences of the “NKOS community”Analyzing the network structure and gender differences of the “NKOS community”
Analyzing the network structure and gender differences of the “NKOS community”
 
Recent advances in the project EXCITE – Extraction of Citations from PDF Docu...
Recent advances in the project EXCITE – Extraction of Citations from PDF Docu...Recent advances in the project EXCITE – Extraction of Citations from PDF Docu...
Recent advances in the project EXCITE – Extraction of Citations from PDF Docu...
 
Searching beyond datasets in the Social Sciences
Searching beyond datasets in the Social SciencesSearching beyond datasets in the Social Sciences
Searching beyond datasets in the Social Sciences
 
Bedeutung von Text Mining am Beispiel der Sozialwissenschaften
Bedeutung von Text Mining am Beispiel der SozialwissenschaftenBedeutung von Text Mining am Beispiel der Sozialwissenschaften
Bedeutung von Text Mining am Beispiel der Sozialwissenschaften
 
Contextualised Browsing in a Digital Library’s Living Lab
Contextualised Browsing in a Digital Library’s Living LabContextualised Browsing in a Digital Library’s Living Lab
Contextualised Browsing in a Digital Library’s Living Lab
 
41st European Conference on Information Retrieval (ECIR 2019)
41st European Conference on Information Retrieval (ECIR 2019)41st European Conference on Information Retrieval (ECIR 2019)
41st European Conference on Information Retrieval (ECIR 2019)
 
Offenes kollaboratives Schreiben: Eine „Open Science“-Infrastruktur am Beispi...
Offenes kollaboratives Schreiben: Eine „Open Science“-Infrastruktur am Beispi...Offenes kollaboratives Schreiben: Eine „Open Science“-Infrastruktur am Beispi...
Offenes kollaboratives Schreiben: Eine „Open Science“-Infrastruktur am Beispi...
 
A Complete Year of User Retrieval Sessions in a Social Sciences Academic Sear...
A Complete Year of User Retrieval Sessions in a Social Sciences Academic Sear...A Complete Year of User Retrieval Sessions in a Social Sciences Academic Sear...
A Complete Year of User Retrieval Sessions in a Social Sciences Academic Sear...
 
Challenges in Extracting and Managing References
Challenges in Extracting and Managing ReferencesChallenges in Extracting and Managing References
Challenges in Extracting and Managing References
 
Opening Scholarly Communication in Social Sciences by Connecting Collaborativ...
Opening Scholarly Communication in Social Sciences by Connecting Collaborativ...Opening Scholarly Communication in Social Sciences by Connecting Collaborativ...
Opening Scholarly Communication in Social Sciences by Connecting Collaborativ...
 
Measuring the usefulness of Knowledge Organization Systems in Information Ret...
Measuring the usefulness of Knowledge Organization Systems in Information Ret...Measuring the usefulness of Knowledge Organization Systems in Information Ret...
Measuring the usefulness of Knowledge Organization Systems in Information Ret...
 
Recent Advances in Bibliometric-Enhanced Information Retrieval
Recent Advances in Bibliometric-Enhanced Information RetrievalRecent Advances in Bibliometric-Enhanced Information Retrieval
Recent Advances in Bibliometric-Enhanced Information Retrieval
 
Analyzing the research output presented at European Networked Knowledge Organ...
Analyzing the research output presented at European Networked Knowledge Organ...Analyzing the research output presented at European Networked Knowledge Organ...
Analyzing the research output presented at European Networked Knowledge Organ...
 
Introduction to the 15th NKOS workshop @TPDL2016
Introduction to the 15th NKOS workshop @TPDL2016Introduction to the 15th NKOS workshop @TPDL2016
Introduction to the 15th NKOS workshop @TPDL2016
 
Recent applications of Knowledge Organization Systems
Recent applications of Knowledge Organization SystemsRecent applications of Knowledge Organization Systems
Recent applications of Knowledge Organization Systems
 

Einführung in das Vektorraummodell

  • 1. Einführung in das Vektorraummodell Dr. Philipp Mayr GESIS – Leibniz-Institut für Sozialwissenschaften 11.11.2014 1
  • 2. Einführung: konzeptuelles Modell Information Retrieval • 1) Dokumente müssen in Dokumentrepräsentationen transformiert werden (Indexing) • 2) Nutzer formulieren eine Anfrage die zu ihrem Informationsbedürfnis passt • 3) Retrievalfunktion matched Anfrage und Dokumentrepräsentation und rankt eine Dokumentliste • 4) Relevance feedback kann die Suche verbessern 2 From Vickery & Vickery, 2004 „The man saw the pyramid on the hill with the telescope.“ 1) 2) 3) 4) Grundsätzliches Problem: Vagheit der Sprache
  • 3. Dank an Dr Ingo Frommholz für seinen Foliensatz „Information Retrieval In A Nutshell“ 3
  • 4. Einführung: Indexierung • Indexierungsprozess (4 typische Schritte) 1. Tokenisation 2. Stopwort-Entfernung 3. Stemming 4. Invertierter Index 4 • Index ist eine Datenstruktur um Suche zu beschleunigen • Ermöglicht die Prozessierung von Anfragen und Ergebnisrückgabe • Extrahierung von bedeutungsvollen Termen
  • 5. Einführung: boolesches Retrieval • Gilt als das erste Retrievalmodell • Keine Termgewichtung, es wird lediglich das Vorkommen eines Terms in einem Dokument geprüft • Strikte Unterteilung in matchende und nicht-matchende Dokumente (wie in einer klass. Datenbank – select [Bedingung] from [Table] where [Bedingung]) • Boolesches retrieval system: listet Dokumente die Keywords in der folgenden Form enthalten • Informationsbedürfnis: “Retrieval systems for multimedia objects, in particular images” • Query: retrieval system AND multimedia AND images 5
  • 6. Zusammenfassung: boolesches Retrieval + AND/OR/NOT mächtige Sprache um ein Informationsbedürfnis in eine Anfrage zu übersetzen (sehr ausdrucksstark) – Anfrageformulierung als boolescher Ausdruck oft zu schwer für unerfahrene Nutzer – Schwierigkeit die Größe der Antwortmenge zu kontrollieren – Experimente zeigen schlechte Retrievalqualität 6
  • 8. Vektorraummodell • Aufbau eines Vokabularraums (term space) aus Termen durch Termextraktion, Stemming, Stopwort-Entfernung • Der Vokabularraum kann durch einen Vektorenraum dargestellt werden – Jede Dimension repräsentiert einen Term in unserem Vokabular – Wenn wir n Terme in unserem Vokabularraum haben, erhalten wir einen n-dimensionalen Vektorenraum • Jedes Dokument und jede Anfrage wird durch einen Vektor im Vokabularraum repräsentiert 8
  • 9. Formale Beschreibung • Eine Menge Terme in unserem Vokabular: T = {t1, t2, …, tn} • T spannt einen n-dimensionalen Vektorraum • Dokument dj wird repräsentiert durch einen Vektor von Dokumenttermgewichten • Anfrage q wird repräsentiert durch einen Vektor von Anfragetermgewichten 9 Gewicht von Term t2 in Dokument dj q1 ist das Gewicht von Anfrageterm t1
  • 10. Dokumente als Vektoren • Beispieldokument aus sowiport 10 dj1 = Mauerbau = 1 dj2 = Mauerfall = 1 dj3 = Ursache = 1 dj4 = UdSSR = 1 dj5 = Apfel = 0
  • 11. Anfragen als Vektoren 11 q1 = Mauerfall = 2 besonders wichtiger Anfrageterm q2 = Deutschland = 1 kommt in der Anfrage vor q3 = Berlin = 1 kommt in der Anfrage vor q3 = Apfel = 0 befindet sich nicht in der Anfrage
  • 12. Retrievalfunktion • Die Retrievalfunktion berechnet einen Retrieval Status Value (RSV) in dem die Vektorähnlichkeit gemessen wird, z.B. über das Skalarprodukt zwischen Dokument- und Anfragevektor 12 Dokument 1 Dokument 2 Anfrage Das Ranking der Dokumente erfolgt absteigend nach dem RSV.
  • 13. Beispiel • Anfrage: “side effects of drugs on memory and cognitive abilities” 13 Die Anfrageterme „side effect“ und „drug“ sind besonders wichtig, daher Wert 2 2x1 =2 2x1 =2 1x1 =1 1x0 =0 --------- 5
  • 14. Termgewichtung • Im Vektorraummodell werden Dokumente und Anfragen als Vektoren von Termgewichten beschrieben. • Die Termgewichte sollten reflektieren ob ein Term ein geeigneter Deskriptor sein kann. Je höher das Gewicht desto wichtiger ist der Term für ein Dokument. • Annahmen – Je häufiger ein Term in einem Dokument vorkommt, desto wichtiger ist er zur Beschreibung des Dokuments (-> term frequency tf ) – Je seltener ein Term in Dokumenten vorkommt, desto geeigneter ist er zur Unterscheidung (Discrimination) zwischen Dokumenten (-> inverse Dokumenthäufigkeit idf ) • Zusatz – tf und idf-Werte können in die Vektoren eingerechnet werden – Es können auch Dokument-unabhängige Gewichte zugewiesen werden. 14
  • 15. Termgewichtung: Beispiel • Ein Dokument mit tf = 10 ist relevanter als ein Dokument mit tf = 1 – Die Relevanz steigt nicht proportional mit der Termfrequenz • Seltene Terme sind informativer als häufige Terme. – Stellen Sie sich einen sehr seltenen Anfrageterm vor, z.B. arachnozentrisch. – Ein Dokument, dass diesen Term beinhaltet ist mit hoher Wahrscheinlichkeit sehr relevant für die Anfrage nach arachnozentrisch. 15
  • 16. Zusammenfassung + Einfaches und intuitives Modell + Nutzerfreundlich (keine komplexen Booleschen Ausdrücke, es werden nur Anfrageterme benötigt) + Produziert ein Ranking von Dokumenten (best match), keinen scharfen Schnitt wie im Booleschen Modell (exact match) + Gute Ergebnisse in Kombination mit tf idf Termgewichtung – Weniger ausdrucksstark als das Boolesche Modell (Nutzer müssen sich weniger Gedanken über die Spezifikation ihres Informationsbedürfnisses machen) – Schwierigkeit Dokumenteigenschaften hervorzuheben (z.B. wenn Terme im Titel eines Dokuments hervorgehoben werden sollen) 16
  • 17. Interaktive Übung 17 1. Berechnen Sie den RVS für jedes Dokument! Skalarprodukt! 2. Welches Ranking erhalten Sie? 3 Dokumente repräsentiert durch die folgenden Vektoren. Auflösung: RVS für d1= 1+1+0.5+0+0=2,5 RVS für d2= 0+0+0.5+0+1=1,5 RVS für d3= 1+2+0.5+0+0=3,5
  • 18. Interaktive Übung • Angenommen wir befinden uns im Booleschen Modell! • Welche Dokumente erhalten wir für die Anfragen: – 1) „side effect“ AND „drug“ AND „memory“ AND „cognitive ability“? – 2) „side effect“ OR „drug“ – 3) „drug“ NOT „side effect“ 18 Terme Häufigkeit in den Dokumenten Auflösung: 1) d3 2) d1 d2 d3 d4 3) {}
  • 19. Interaktive Übung • Angenommen die vier Bilder im unteren Beispiel sind Dokumente. Wie können Sie Ihre Ergebnismenge ranken? • Denken Sie z.B. an Instrumente der inhaltlichen Erschließung wie Thesauri und Klassifikationen! 19 Anfrage: The man saw the pyramid on the hill with the telescope. From Vickery & Vickery, 2004
  • 20. Danke für Ihre Aufmerksamkeit Dr. Philipp Mayr GESIS – Leibniz-Institut für Sozialwissenschaften philipp.mayr@gesis.org 20

Hinweis der Redaktion

  1. RVS für d1= 1+1+0.5+0+0=2,5 RVS für d2= 0+0+0.5+0+1=1,5 RVS für d3= 1+2+0.5+0+0=3,5
  2. D3 D1 D2 D3 D4 {}