SlideShare ist ein Scribd-Unternehmen logo
1 von 17
Hoofdstuk 9 : Automatisch
indexeren
From human to machine
1. Wat is automatisch indexeren (1)
"Automatic indexing is the process whereby a computer is
used to process a natural language text that is already
in machine-readable form so that indexing terms are
allocated to its content without direct human
intervention"
• Indexeren door computers :
– Op basis van algorithms
– Parameters vastgelegd door personen
• Minder subjectief
• Toch sterke band met natuurlijke personen
• Human indexing en automatic indexing niet strikt te scheiden
• Reden voor ontstaan :
– Grote hoeveelheid informative
– Speelt in op elektronische informatie
1. Wat is automatisch indexeren (2)
• Computers scannen een tekst :
– Maken een inverted file = termen gekoppeld aan
positie
– Lijst van gemeenschappelijke termen / documenten
/posities
– Zoekopdracht = termen uit zoekopdracht matchen
met termen uit inverted file
2. Hoe werkt het (1)
• Welke overwegingen?
– Wat is een woord
– Wat met interpunctie
– Wat met koppeltekens?
• Verschillende technieken :
– Stopwoorden lijst of lijst met significante termen
– Counting words
2. Hoe werkt het (2)
• Verschillende technieken :
– Comparative counting and weighting
– Stemming
– Indexing phrases
– Culstering
• Nu veel gebruikt voor multimediale objecten
– Vooral tekst “rondom”
2. Hoe werkt het (3)
• Stappen indexeerproces :
– Normalizering van de tekst
– Opbreken van tekst in significante onderdelen
– Indexeerbare elementen bepalen
• Stopwoorden verwijderen
• Stemming toepassen
– Inverted file produceren
3. Indexeerproces
• Primitief = KWIC/KWOC enz …
– Enkel voor titelwoorden
– Lage precisie
– Enkel voor woorden en niet voor phrases
– Niet mogelijke boolse operatoren
4. Classification of approaches (1)
• Moderne benaderingen :
– tf-idf : Term frequency - inverse document
frequency
– External resources
– Text categorization
– Relevance feedback
4. Classification of approaches (2)
• Google Page Rank
4. Classification of approaches (3)
• Voordelen :
– Voorspelbaar
– Evolueert zeer goed en wordt verfijnder
– Werkt goed voor gelijkaardige materialen
– Minder duur dan menselijk indexeren
– Termen onttrekken en links leggen
– Mogelijk om een grote hoeveelheid informatie te verwerken
– Versnel indexeringsproces
– Compenseert menselijke vergissingen
5. Beoordeling van automatisch indexeren (1)
• Nadelen
– Niet zo flexibel van aard
– Niet precies genoeg voor uniek material
– Moeilijk aan te passen aan nieuwe terminologie
– Vooral goed voor conceptuele benadering, maar niet
voor inhoudelijke benadering
5. Beoordeling van automatisch indexeren (2)
• Dus :
– Menselijk en automatisch indexering sluiten nauw
aan en vullen elkaar aan
– Menselijk indexeren = één techniek, automatisch
zijn meerdere technieken
– Automatisch = vooral voor grote hoeveelheden
elektronisch materiaal
5. Beoordeling van automatisch indexeren (3)
• Ontstaan vanuit de information overload
– Alternatief voor volledig lezen van een document
– Verlengde van alerting services
– Kan beslissing over al- of niet lezen beïnvloeden
6. Abstracting (1)
• Abstracting = bepaalde bron synthetiseren tot
het essentiële
• Traditioneel : manueel door vakreferenten
• Automatisch abstracting :
– Geen kennis van inhoud
– Vooral extracting
6. Abstracting (2)
• Het document wordt verdeeld in segmenten (onderdelen /
paragrafen)
• De belangrijke concepten uit de tekst worden vastgelegd
en opgezocht
• Aan elk van de concepten wordt er een score toegekend
(aantal keer van voorkomen / plaats van voorkomen)
• Op basis hiervan wordt een ranking van de zinnen
gemaakt.
• Deze zinnen worden overgenomen in de abstract.
6. Abstracting (3)
• Voorbeeld = Copernicus summarizer
6. Abstracting (4)

Weitere ähnliche Inhalte

Ähnlich wie Pres idbb hoofdstuk9

Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?
Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?
Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?voginip
 
Workshop Informatie vindbaar met metadata en taxonomieën
Workshop Informatie vindbaar met metadata en taxonomieënWorkshop Informatie vindbaar met metadata en taxonomieën
Workshop Informatie vindbaar met metadata en taxonomieënJoyce van Aalten
 
Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.
Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.
Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.Eric Sieverts
 
Lectric leergang Intranet Manager dag 2
Lectric leergang Intranet Manager dag 2Lectric leergang Intranet Manager dag 2
Lectric leergang Intranet Manager dag 2Vanessa Bos-Steijn
 
Named entity recognition hoe werkt het wat kunnen we er mee doen
Named entity recognition hoe werkt het wat kunnen we er mee doenNamed entity recognition hoe werkt het wat kunnen we er mee doen
Named entity recognition hoe werkt het wat kunnen we er mee doenSmals
 
Papertube Uitleg
Papertube UitlegPapertube Uitleg
Papertube Uitlegliviovr
 
231102 (WR) v1 Generatieve AI verantwoord inzetten welke afspraken maken we.pdf
231102 (WR) v1 Generatieve AI verantwoord inzetten welke afspraken maken we.pdf231102 (WR) v1 Generatieve AI verantwoord inzetten welke afspraken maken we.pdf
231102 (WR) v1 Generatieve AI verantwoord inzetten welke afspraken maken we.pdfWilfredRubens.com
 
Online Tekstbegrip: een uitdaging voor toetsenmakers Cito 0114
Online Tekstbegrip: een uitdaging voor toetsenmakers Cito 0114Online Tekstbegrip: een uitdaging voor toetsenmakers Cito 0114
Online Tekstbegrip: een uitdaging voor toetsenmakers Cito 0114Jeroen Clemens
 
Sheetsworkshopinternetvervolg
SheetsworkshopinternetvervolgSheetsworkshopinternetvervolg
SheetsworkshopinternetvervolgBJ@COM
 

Ähnlich wie Pres idbb hoofdstuk9 (13)

Presentatie Schokkaert
Presentatie SchokkaertPresentatie Schokkaert
Presentatie Schokkaert
 
Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?
Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?
Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?
 
Workshop Informatie vindbaar met metadata en taxonomieën
Workshop Informatie vindbaar met metadata en taxonomieënWorkshop Informatie vindbaar met metadata en taxonomieën
Workshop Informatie vindbaar met metadata en taxonomieën
 
Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.
Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.
Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.
 
Lectric leergang Intranet Manager dag 2
Lectric leergang Intranet Manager dag 2Lectric leergang Intranet Manager dag 2
Lectric leergang Intranet Manager dag 2
 
Named entity recognition hoe werkt het wat kunnen we er mee doen
Named entity recognition hoe werkt het wat kunnen we er mee doenNamed entity recognition hoe werkt het wat kunnen we er mee doen
Named entity recognition hoe werkt het wat kunnen we er mee doen
 
Papertube Uitleg
Papertube UitlegPapertube Uitleg
Papertube Uitleg
 
Willy Vallaey; Het beheer van digitale documenten in een gemeente (bijgewerkt...
Willy Vallaey; Het beheer van digitale documenten in een gemeente (bijgewerkt...Willy Vallaey; Het beheer van digitale documenten in een gemeente (bijgewerkt...
Willy Vallaey; Het beheer van digitale documenten in een gemeente (bijgewerkt...
 
231102 (WR) v1 Generatieve AI verantwoord inzetten welke afspraken maken we.pdf
231102 (WR) v1 Generatieve AI verantwoord inzetten welke afspraken maken we.pdf231102 (WR) v1 Generatieve AI verantwoord inzetten welke afspraken maken we.pdf
231102 (WR) v1 Generatieve AI verantwoord inzetten welke afspraken maken we.pdf
 
Les 1
Les 1Les 1
Les 1
 
Artificiële intelligentie en bibliotheeksoftware - Tom De Mey & Richard Philips
Artificiële intelligentie en bibliotheeksoftware - Tom De Mey & Richard PhilipsArtificiële intelligentie en bibliotheeksoftware - Tom De Mey & Richard Philips
Artificiële intelligentie en bibliotheeksoftware - Tom De Mey & Richard Philips
 
Online Tekstbegrip: een uitdaging voor toetsenmakers Cito 0114
Online Tekstbegrip: een uitdaging voor toetsenmakers Cito 0114Online Tekstbegrip: een uitdaging voor toetsenmakers Cito 0114
Online Tekstbegrip: een uitdaging voor toetsenmakers Cito 0114
 
Sheetsworkshopinternetvervolg
SheetsworkshopinternetvervolgSheetsworkshopinternetvervolg
Sheetsworkshopinternetvervolg
 

Mehr von CVO_De_Nobel

Mehr von CVO_De_Nobel (20)

Li7
Li7Li7
Li7
 
Li3
Li3Li3
Li3
 
Li1
Li1Li1
Li1
 
Inleiding
InleidingInleiding
Inleiding
 
Overzicht evaluatie bibliotheeksoftware
Overzicht evaluatie bibliotheeksoftwareOverzicht evaluatie bibliotheeksoftware
Overzicht evaluatie bibliotheeksoftware
 
Pres idbb hoofdstuk5
Pres idbb hoofdstuk5Pres idbb hoofdstuk5
Pres idbb hoofdstuk5
 
Pres idbb hoofdstuk4
Pres idbb hoofdstuk4Pres idbb hoofdstuk4
Pres idbb hoofdstuk4
 
Pres idbb hoofdstuk3
Pres idbb hoofdstuk3Pres idbb hoofdstuk3
Pres idbb hoofdstuk3
 
Pres idbb hoofdstuk3
Pres idbb hoofdstuk3Pres idbb hoofdstuk3
Pres idbb hoofdstuk3
 
Pres idbb hoofdstuk1
Pres idbb hoofdstuk1Pres idbb hoofdstuk1
Pres idbb hoofdstuk1
 
Pres idbb inleiding
Pres idbb inleidingPres idbb inleiding
Pres idbb inleiding
 
Pres baa hoofdstuk 6
Pres baa hoofdstuk 6Pres baa hoofdstuk 6
Pres baa hoofdstuk 6
 
Pres baa hoofdstuk 4.pptx
Pres baa hoofdstuk 4.pptxPres baa hoofdstuk 4.pptx
Pres baa hoofdstuk 4.pptx
 
Pres baa hoofdstuk 2
Pres baa hoofdstuk 2Pres baa hoofdstuk 2
Pres baa hoofdstuk 2
 
Pres baa hoofdstuk 3
Pres baa hoofdstuk 3Pres baa hoofdstuk 3
Pres baa hoofdstuk 3
 
Pres baa hoofdstuk 1
Pres baa hoofdstuk 1Pres baa hoofdstuk 1
Pres baa hoofdstuk 1
 
Pres baa inleiding
Pres baa inleidingPres baa inleiding
Pres baa inleiding
 
Pres bab hoofdstuk4
Pres bab hoofdstuk4Pres bab hoofdstuk4
Pres bab hoofdstuk4
 
Pres bab hoofdstuk3
Pres bab hoofdstuk3Pres bab hoofdstuk3
Pres bab hoofdstuk3
 
Pres bab hoofdstuk2
Pres bab hoofdstuk2Pres bab hoofdstuk2
Pres bab hoofdstuk2
 

Pres idbb hoofdstuk9

  • 1. Hoofdstuk 9 : Automatisch indexeren From human to machine
  • 2. 1. Wat is automatisch indexeren (1) "Automatic indexing is the process whereby a computer is used to process a natural language text that is already in machine-readable form so that indexing terms are allocated to its content without direct human intervention"
  • 3. • Indexeren door computers : – Op basis van algorithms – Parameters vastgelegd door personen • Minder subjectief • Toch sterke band met natuurlijke personen • Human indexing en automatic indexing niet strikt te scheiden • Reden voor ontstaan : – Grote hoeveelheid informative – Speelt in op elektronische informatie 1. Wat is automatisch indexeren (2)
  • 4. • Computers scannen een tekst : – Maken een inverted file = termen gekoppeld aan positie – Lijst van gemeenschappelijke termen / documenten /posities – Zoekopdracht = termen uit zoekopdracht matchen met termen uit inverted file 2. Hoe werkt het (1)
  • 5. • Welke overwegingen? – Wat is een woord – Wat met interpunctie – Wat met koppeltekens? • Verschillende technieken : – Stopwoorden lijst of lijst met significante termen – Counting words 2. Hoe werkt het (2)
  • 6. • Verschillende technieken : – Comparative counting and weighting – Stemming – Indexing phrases – Culstering • Nu veel gebruikt voor multimediale objecten – Vooral tekst “rondom” 2. Hoe werkt het (3)
  • 7. • Stappen indexeerproces : – Normalizering van de tekst – Opbreken van tekst in significante onderdelen – Indexeerbare elementen bepalen • Stopwoorden verwijderen • Stemming toepassen – Inverted file produceren 3. Indexeerproces
  • 8. • Primitief = KWIC/KWOC enz … – Enkel voor titelwoorden – Lage precisie – Enkel voor woorden en niet voor phrases – Niet mogelijke boolse operatoren 4. Classification of approaches (1)
  • 9. • Moderne benaderingen : – tf-idf : Term frequency - inverse document frequency – External resources – Text categorization – Relevance feedback 4. Classification of approaches (2)
  • 10. • Google Page Rank 4. Classification of approaches (3)
  • 11. • Voordelen : – Voorspelbaar – Evolueert zeer goed en wordt verfijnder – Werkt goed voor gelijkaardige materialen – Minder duur dan menselijk indexeren – Termen onttrekken en links leggen – Mogelijk om een grote hoeveelheid informatie te verwerken – Versnel indexeringsproces – Compenseert menselijke vergissingen 5. Beoordeling van automatisch indexeren (1)
  • 12. • Nadelen – Niet zo flexibel van aard – Niet precies genoeg voor uniek material – Moeilijk aan te passen aan nieuwe terminologie – Vooral goed voor conceptuele benadering, maar niet voor inhoudelijke benadering 5. Beoordeling van automatisch indexeren (2)
  • 13. • Dus : – Menselijk en automatisch indexering sluiten nauw aan en vullen elkaar aan – Menselijk indexeren = één techniek, automatisch zijn meerdere technieken – Automatisch = vooral voor grote hoeveelheden elektronisch materiaal 5. Beoordeling van automatisch indexeren (3)
  • 14. • Ontstaan vanuit de information overload – Alternatief voor volledig lezen van een document – Verlengde van alerting services – Kan beslissing over al- of niet lezen beïnvloeden 6. Abstracting (1)
  • 15. • Abstracting = bepaalde bron synthetiseren tot het essentiële • Traditioneel : manueel door vakreferenten • Automatisch abstracting : – Geen kennis van inhoud – Vooral extracting 6. Abstracting (2)
  • 16. • Het document wordt verdeeld in segmenten (onderdelen / paragrafen) • De belangrijke concepten uit de tekst worden vastgelegd en opgezocht • Aan elk van de concepten wordt er een score toegekend (aantal keer van voorkomen / plaats van voorkomen) • Op basis hiervan wordt een ranking van de zinnen gemaakt. • Deze zinnen worden overgenomen in de abstract. 6. Abstracting (3)
  • 17. • Voorbeeld = Copernicus summarizer 6. Abstracting (4)

Hinweis der Redaktion

  1. Documentatiepakket nieuwe personeelsleden, coördinatie dienst vorming
  2. Documentatiepakket nieuwe personeelsleden, coördinatie dienst vorming
  3. Documentatiepakket nieuwe personeelsleden, coördinatie dienst vorming
  4. Documentatiepakket nieuwe personeelsleden, coördinatie dienst vorming
  5. Documentatiepakket nieuwe personeelsleden, coördinatie dienst vorming
  6. Documentatiepakket nieuwe personeelsleden, coördinatie dienst vorming
  7. Documentatiepakket nieuwe personeelsleden, coördinatie dienst vorming
  8. Documentatiepakket nieuwe personeelsleden, coördinatie dienst vorming
  9. Documentatiepakket nieuwe personeelsleden, coördinatie dienst vorming
  10. Documentatiepakket nieuwe personeelsleden, coördinatie dienst vorming
  11. Documentatiepakket nieuwe personeelsleden, coördinatie dienst vorming
  12. Documentatiepakket nieuwe personeelsleden, coördinatie dienst vorming
  13. Documentatiepakket nieuwe personeelsleden, coördinatie dienst vorming
  14. Documentatiepakket nieuwe personeelsleden, coördinatie dienst vorming
  15. Documentatiepakket nieuwe personeelsleden, coördinatie dienst vorming
  16. Documentatiepakket nieuwe personeelsleden, coördinatie dienst vorming
  17. Documentatiepakket nieuwe personeelsleden, coördinatie dienst vorming