1. Hoofdstuk 9 : Automatisch
indexeren
From human to machine
2. 1. Wat is automatisch indexeren (1)
"Automatic indexing is the process whereby a computer is
used to process a natural language text that is already
in machine-readable form so that indexing terms are
allocated to its content without direct human
intervention"
3. • Indexeren door computers :
– Op basis van algorithms
– Parameters vastgelegd door personen
• Minder subjectief
• Toch sterke band met natuurlijke personen
• Human indexing en automatic indexing niet strikt te scheiden
• Reden voor ontstaan :
– Grote hoeveelheid informative
– Speelt in op elektronische informatie
1. Wat is automatisch indexeren (2)
4. • Computers scannen een tekst :
– Maken een inverted file = termen gekoppeld aan
positie
– Lijst van gemeenschappelijke termen / documenten
/posities
– Zoekopdracht = termen uit zoekopdracht matchen
met termen uit inverted file
2. Hoe werkt het (1)
5. • Welke overwegingen?
– Wat is een woord
– Wat met interpunctie
– Wat met koppeltekens?
• Verschillende technieken :
– Stopwoorden lijst of lijst met significante termen
– Counting words
2. Hoe werkt het (2)
6. • Verschillende technieken :
– Comparative counting and weighting
– Stemming
– Indexing phrases
– Culstering
• Nu veel gebruikt voor multimediale objecten
– Vooral tekst “rondom”
2. Hoe werkt het (3)
7. • Stappen indexeerproces :
– Normalizering van de tekst
– Opbreken van tekst in significante onderdelen
– Indexeerbare elementen bepalen
• Stopwoorden verwijderen
• Stemming toepassen
– Inverted file produceren
3. Indexeerproces
8. • Primitief = KWIC/KWOC enz …
– Enkel voor titelwoorden
– Lage precisie
– Enkel voor woorden en niet voor phrases
– Niet mogelijke boolse operatoren
4. Classification of approaches (1)
9. • Moderne benaderingen :
– tf-idf : Term frequency - inverse document
frequency
– External resources
– Text categorization
– Relevance feedback
4. Classification of approaches (2)
10. • Google Page Rank
4. Classification of approaches (3)
11. • Voordelen :
– Voorspelbaar
– Evolueert zeer goed en wordt verfijnder
– Werkt goed voor gelijkaardige materialen
– Minder duur dan menselijk indexeren
– Termen onttrekken en links leggen
– Mogelijk om een grote hoeveelheid informatie te verwerken
– Versnel indexeringsproces
– Compenseert menselijke vergissingen
5. Beoordeling van automatisch indexeren (1)
12. • Nadelen
– Niet zo flexibel van aard
– Niet precies genoeg voor uniek material
– Moeilijk aan te passen aan nieuwe terminologie
– Vooral goed voor conceptuele benadering, maar niet
voor inhoudelijke benadering
5. Beoordeling van automatisch indexeren (2)
13. • Dus :
– Menselijk en automatisch indexering sluiten nauw
aan en vullen elkaar aan
– Menselijk indexeren = één techniek, automatisch
zijn meerdere technieken
– Automatisch = vooral voor grote hoeveelheden
elektronisch materiaal
5. Beoordeling van automatisch indexeren (3)
14. • Ontstaan vanuit de information overload
– Alternatief voor volledig lezen van een document
– Verlengde van alerting services
– Kan beslissing over al- of niet lezen beïnvloeden
6. Abstracting (1)
15. • Abstracting = bepaalde bron synthetiseren tot
het essentiële
• Traditioneel : manueel door vakreferenten
• Automatisch abstracting :
– Geen kennis van inhoud
– Vooral extracting
6. Abstracting (2)
16. • Het document wordt verdeeld in segmenten (onderdelen /
paragrafen)
• De belangrijke concepten uit de tekst worden vastgelegd
en opgezocht
• Aan elk van de concepten wordt er een score toegekend
(aantal keer van voorkomen / plaats van voorkomen)
• Op basis hiervan wordt een ranking van de zinnen
gemaakt.
• Deze zinnen worden overgenomen in de abstract.
6. Abstracting (3)