SlideShare ist ein Scribd-Unternehmen logo
1 von 61
Downloaden Sie, um offline zu lesen
Metadatacreatie, 02/12/2021
Rony Vissers, Nastasia Vanderperren & Matthias Priem
Wat zijn metadata?
Metadata
● “Data over data”
● Gestructureerde gegevens over identificatie, beheer, aard, gebruik en
bewaarplaats van fysieke of digitale bronnen.
● Verschillende categorieën, bv. descriptieve metadata, structurele
metadata en administratieve metadata.
● Waarom is metadata belangrijk?
○ beheer;
○ vindbaarheid;
○ doorzoekbaarheid;
○ ....
Metadata
● Uitdaging
○ beschrijvende metadata ontbreekt of is heel beknopt
○ juridische metadata ontbreekt of is onvolledig
○ …
● Creëren en verrijken van metadata is tijdsintensief > dus duur
● Geautomatiseerde metadatacreatie of - verrijking m.b.v. artificiële
intelligentie?
○ beeldherkenning
■ OCR
■ gezichtsherkenning
○ speech-to-text
○ named entity recognition & koppeling met externe authorities
○ ...
Metadata
● Strategisch plan 2020-2023:
“Om materiaal te kunnen gebruiken, moet de inhoud zo goed mogelijk
beschreven zijn en dus voorzien van rijke en correcte metadata. [...] De annotatie
[...] is het domein van onze contentpartners, die inhoudelijk de nodige kennis over
het gearchiveerde materiaal bezitten. We stellen echter vast dat de snelle
instroom van gedigitaliseerd materiaal, gecombineerd met de groei van digitaal
geboren materiaal, onze partners voor een onmogelijke uitdaging stelt. Aan de
ene kant is er de vraag naar een steeds meer gedetailleerde omschrijving, aan de
andere kant is er de snellere aangroei van materiaal.”
● SD 4 meemoo creëert, verzamelt en verrijkt metadata als motor voor
valorisatie en hergebruik van archiefmateriaal.
Wat hebben we al
gedaan / wat doen we?
OCR, verbetering OCR,
NER, koppeling
externe authorities
● Nieuws van de Groote Oorlog
● Nieuwe Tijdingen
OCR
● Optical character recognition (OCR)
In het Nederlands: optische tekenherkenning
● Transformatie waarbij uit een afbeelding van een tekst door middel van
patroonherkenning alle tekens uit de afbeelding worden herkend en
apart opgeslagen door een computer(programma)
● Tekst uit een afbeelding wordt omgezet in een bewerkbare tekst
Metadata
● Optical character recognition (OCR)
In het Nederlands: optische tekenherkenning
● Transformatie waarbij uit een afbeelding van een tekst door middel van
patroonherkenning alle tekens uit de afbeelding worden herkend en
apart opgeslagen door een computer(programma)
● Tekst uit een afbeelding wordt omgezet in een bewerkbare tekst
Metadata
● Optical character recognition (OCR)
In het Nederlands: optische tekenherkenning
● Transformatie waarbij uit een afbeelding van een tekst door middel van
patroonherkenning alle tekens uit de afbeelding worden herkend en
apart opgeslagen door een computer(programma)
● Tekst uit een afbeelding wordt omgezet in een bewerkbare tekst
Metadata
● Optical character recognition (OCR)
In het Nederlands: optische tekenherkenning
● Transformatie waarbij uit een afbeelding van een tekst door middel van
patroonherkenning alle tekens uit de afbeelding worden herkend en
apart opgeslagen door een computer(programma)
● Tekst uit een afbeelding wordt omgezet in een bewerkbare tekst
Metadata
● Optical character recognition (OCR)
In het Nederlands: optische tekenherkenning
● Transformatie waarbij uit een afbeelding van een tekst door middel van
patroonherkenning alle tekens uit de afbeelding worden herkend en
apart opgeslagen door een computer(programma)
● Tekst uit een afbeelding wordt omgezet in een bewerkbare tekst
OCR
● Fase 1 (2021)
○ verkenning nieuwe mogelijkheden machine learning bij OCR-
verbetering
○ testen van representatieve staal
● Fase 2 (2022)
○ piloot voor verbetering OCR reeds gedigitaliseerde kranten met de
gekozen methode
● Fase 3 (2023)+
○ implementatie bij nieuwe digitalisering
Gezichtsherkenning
• FAME (FAce MEtadata):
operationalisering van
metadata-gedreven
gezichtsherkenning in de
registratiepraktijk
Terminologie
• referentieset: portretfoto’s waarvan we door metadata weten wie er op
staat
• testset: portretfoto’s, groepsfoto’s en allerhande andere foto’s waarvan
we willen weten wie erop staat.
• gezichtsdetectie: het lokaliseren van gezichten op een foto
• gezichtsherkenning: het plakken van een naam op een gezicht
FAME
● Culturele organisaties slagen er onvoldoende in om omvangrijke
collecties foto’s en video’s van goede metadata te voorzien. Dit tekort
belemmert de online toegang en bevraging, alsook het hergebruik van
digitale foto’s en video’s.
● Dit project ontwikkelt best practices om personen op die foto’s en
video’s te identificeren via (semi-)geautomatiseerde
gezichtsherkenning.
● Daarnaast onderzoekt dit project ook hoe bestaande metadata de
accuraatheid van de gezichtsherkenning kunnen verbeteren.
FAME
● Werkpakket 1: voorbereidend onderzoek
● Werkpakket 2: pilootproject politici en activisten herkennen
● Werkpakket 3: pilootproject sportmensen herkennen
● Werkpakket 4: pilootproject podiumkunstenaars herkennen
● Werkpakket 5: rapportering en disseminatie
● Werkpakket 6: projectadministratie
Pilootproject politici & activisten
partner 1: Archief Vlaams Parlement
• > 4300 video’s van zittingen
Vlaams Parlement 1992-1994 en
2001-heden
• 5300 gedigitaliseerde foto’s van
zittingen, recepties,
feestelijkheden, ...
Pilootproject politici & activisten
partner 2: ADVN
• 8300 foto’s van Wij, Vlaams
Nationaal (1965-2000)
• 500 video’s van VNOS (1981-2001)
• ook nog film, maar nog niet
gedigitaliseerd
Pilootproject podiumkunstenaars
partner: Kunstenpunt
• 9000 foto’s, hoofdzakelijk van
producties
• video’s: documentaires,
registraties, ...
Pilootproject sportmensen
• partner: KOERS
• 115.000 negatieven
• wielrennen, veldrijden,
baanwielrennen
• junioren, beloften, amateurs,
profs
• 1967-2006
KOERS
Werkwijze in notendop
Gezichten zoeken (via keypoints)
crop
encoding clustering via algoritme
voorspelling via referentiesets
Referentiesets
● onbekende gezichten clusteren met bekende gezichten
● ⇒ naam plakken op onbekende gezichten
Aandachtspunten
● verschillende portretten per persoon
● veroudering ⇒ portretten uit verschillende levensfases
● kwaliteit foto
Referentieset: welke?
● ontvangen van contentpartner
● geautomatiseerd: IMDb, Wikidata, De Wielersite, website Vlaams
Parlement en Belgische Senaat
● manuele zoekactie op basis van metadata
Metadata
1. voorspellen > rol referentieset
1. hulp voor afbakenen referentieset > wie kan op foto staan?
1. hulp bij validatie
○ bv. datering foto
○ bv. context voor persoon die valideert
Metadata: welke?
1. van de contentpartners zelf
• bestandsnamen (Kunstenpunt) → o.a. theatergezelschap,
productie en seizoen uit pad halen
• beschrijvingen
• uit het MAM
• open API’s, bv. Open Data Vlaams Parlement
Metadata: welke?
Metadata: welke?
Metadata: welke?
2. koppeling maken met externe authorities
• Wikidata
• Belgische Senaat
• ProCylingStats
• De Wielersite
• IMDb
Metadata: problemen & uitdagingen
1. inconsistenties en schrijffouten
• bv. schrijffouten in persoonsnamen
• bv. verschillende schrijfwijzen
• bv. gebruik van afkortingen bij namen ⇒ wie is het?
Metadata: problemen & uitdagingen
Metadata: problemen & uitdagingen
2. geen gestructureerde data
• beschrijvingen en namen in vrijetekstvelden
• verslagen in PDF
> via NER en patroonherkenning op zoek naar persoonsnamen
“Sfeerbeeld van de plenaire vergadering : Temmerman en Tobback in
gesprek.
Gilbert Temmerman (midden, links); Louis Tobback (midden, rechts).”
Plenaire vergadering woensdag 7 december
2011 / Aanwezigheden:
● Robrecht Bothuyne
● Boudewijn Bouckaert
● Karin Brouwers
● Elisabeth Meuleman
● Fientje Moerman
● Lydia Peeters
● Dirk Peeters
● Fathma Pehlivan
● Jan Peumans
● Valerie Taeldeman
● Bart Tommelein
● Luckas Van Der Taelen
● Wim Van Dijck
● Kris Van Dijck
● Marc Vanden Bussche
● Marleen Vanderpoorten
● Lode Vereeck
3 studiedagen in kader van FAME-project
● onderwerpen:
○ juridische en ethische aspecten van gezichtsherkenning
○ gezichtsherkenning en opschaling van infrastructuur
○ gezichtsherkenning en transformatie van registratiepraktijk
● data:
○ namiddag 18 januari 2022, Vlaams Parlement > zie verder
○ namiddag 22 februari 2022, ADVN
○ maart
Studiedag 1: ethische en juridische aspecten
van gezichtsherkenningstechnologie
● korte introductie vanuit een breed maatschappelijk oogpunt: Dominique Deckmyn
(redacteur Cultuur en Media, De Standaard)
● toelichting van juridisch kader: Rutger Goeminne (juridisch medewerker, meemoo)
● keynote-lezing : Catherine Jasserand-Breeman (Postdoctoraal onderzoeker, Centrum
voor IT & IP-recht, KU Leuven)
● toelichting van de omgang met juridische en ethische aspecten binnen het FAME-
project
● panelgesprek met specialisten en ervaringsdeskundigen
● Q&A-sessie
>>> Vlaams Parlement (Leuvenseweg 86, 1000 Brussel), dinsdag 18 januari om 13u30
inschrijven via meemoo.be - Vormingen en events
Verdere plannen
Metadata trajecten - context
• 3 activiteiten gepland
• Spraakherkenning
• Gezichtsdetectie en -herkenning
• Entiteitsherkenning in tekst
Relance metadata - projectaanpak
• Timing: najaar 2021 tot eind 2023
• Workflows die later ook herbruikbaar zijn
• Mature technologie, beperkte onderzoekscomponent
• We werken verder o.b.v. resultaten FAME en eerder onderzoek in de
media en CE-sectoren.
• Nauw contact met organisaties (bv. VRT, Beeld en Geluid, BBC, .. )
die hier ervaring mee hebben.
• Data wordt mee opgenomen in de roadmap metadata. Timing TBD.
Metadata - kerncijfers
● 120 contentpartners betrokken
● Per activiteit
○ Spraakherkenning en Entiteit
Herkenning : meer dan 130.000
items
○ Gezichtsdetectie-en herkenning :
meer dan 88.000 items
Metadata - Spraakherkenning
● Nederlandse spraak omzetten in
doorlopende tekst + tijdcodes
● 120 contentpartners betrokken
● > 130.000 items
○ 43k items audio
○ 88k items video en film
● Dit is +/- 175.000 uur
Metadata - Spraakherkenning
● Tasks
○ Spraakherkenning zelf
○ Result = tekst + tijdscodes.
● Europese
aanbestedingsprocedure
● Uitdagingen:
○ alle collecties relevant?
○ moeten we muziek/stilte uitsluiten?
○ kwaliteitscontrole (automated?)
Metadata - Entiteit Herkenning
● Werken op basis van de teksten uit
spraakherkenning
● Activiteiten
○ Entiteiten (LOC, PERS, ORG) in tekst zoeken
○ Entiteiten linken
● Meest uitdagend, want:
○ Kwaliteit van spraakherkenning?
○ Linken aan welke bronnen?
○ Hoe linken we?
○ Kwaliteitscontrole
Wim Vandekeybus
(Herenthout, 30 juni 1963) is
een Belgisch choreograaf,
regisseur en fotograaf. Zijn
gezelschap Ultima Vez is
gevestigd in Sint-Jans-
Molenbeek (Brussel).
Metadata - Gezichtsdetectie / herkenning
● Gezichtsdetectie
● Gezichtsherkenning
● 88.000 items, 118 content
partners
● Uitdagingen?
○ Linken aan welke authorities?
○ Herbruikbaarheid
○ Privacy!
Metadatatrajecten – DPIA
• DPIA
• Data Protection Impact Assessment
• Oplijsting taken project
• Potentiële impact op privacy
• Mitigeren bepaalde risico’s
• ‘Checklist’ taken in het project
• Stand van zaken
• Traject afgerond en goedgekeurd
door DPO
GIVE – Metadata – Projectplan
Metadatatrajecten – team
• Technische architect
• Hoe zien de workflows eruit?
• Waar slaan we de data op?
• Hoe controleren we de kwaliteit?
• Machine learning expert
• Expertise met machine learning technieken
• Werkt in tandem met de Technische Architect
• Stand van zaken
• Eerste opdracht:
• Diepgaande analyse van mogelijke oplossingen,
• Marktanalyse
• Bestaande use cases
• Voorbereiding tenders en implementatie.
Dit project eindigt niet in 2023
● We mogen op korte tijd veel
(ruwe) data aanmaken.
● Deel van de data zal zeker
rechtstreekse impact
hebben op hergebruik
● Opportuniteit post 2023 en
nieuwe voedingsbodem
voor projecten / ontsluiting
Communicatieplan wordt verder uitgewerkt; daarin aandacht voor:
• informeren:
• partnerupdates
• partnerportaal
• tijdens partnerevent of ad hoc
• inspraak en feedback:
• stuurgroepen
• werkgroepen
• vragenlijsten
• jury’s
Communicatie / Betrokkenheid
CONTACTEER
ONS
mail Matthias
of uw favoriete
account manager
Bedankt!

Weitere ähnliche Inhalte

Ähnlich wie Automatische metadatacreatie

20120829 Presentatie over Semantic Search
20120829 Presentatie over Semantic Search20120829 Presentatie over Semantic Search
20120829 Presentatie over Semantic Search
hannah_ff
 
Metadata oplossingen
Metadata oplossingenMetadata oplossingen
Metadata oplossingen
grus001
 
20090116 Bom Vl Sam
20090116 Bom Vl Sam20090116 Bom Vl Sam
20090116 Bom Vl Sam
FARO
 

Ähnlich wie Automatische metadatacreatie (20)

GIVE metadata - showcase - 30 nov 2023.pptx
GIVE metadata - showcase - 30 nov 2023.pptxGIVE metadata - showcase - 30 nov 2023.pptx
GIVE metadata - showcase - 30 nov 2023.pptx
 
GIVE-metadataproject
GIVE-metadataprojectGIVE-metadataproject
GIVE-metadataproject
 
Infosessie GIVE-metadata - partnerevent 11 mei 2023
Infosessie GIVE-metadata - partnerevent 11 mei 2023Infosessie GIVE-metadata - partnerevent 11 mei 2023
Infosessie GIVE-metadata - partnerevent 11 mei 2023
 
Van experiment naar structurele oplossing: gezichtsherkenning in functie van ...
Van experiment naar structurele oplossing: gezichtsherkenning in functie van ...Van experiment naar structurele oplossing: gezichtsherkenning in functie van ...
Van experiment naar structurele oplossing: gezichtsherkenning in functie van ...
 
Eduvision - Webinar Hoe Word Ik Big Data Professional?
Eduvision - Webinar Hoe Word Ik Big Data Professional?Eduvision - Webinar Hoe Word Ik Big Data Professional?
Eduvision - Webinar Hoe Word Ik Big Data Professional?
 
20120829 Presentatie over Semantic Search
20120829 Presentatie over Semantic Search20120829 Presentatie over Semantic Search
20120829 Presentatie over Semantic Search
 
Metadata is a messy subject! De ontwikkeling van metadatasets voor een overhe...
Metadata is a messy subject! De ontwikkeling van metadatasets voor een overhe...Metadata is a messy subject! De ontwikkeling van metadatasets voor een overhe...
Metadata is a messy subject! De ontwikkeling van metadatasets voor een overhe...
 
Mark Vermeer - Congres 'Data gedreven Beleidsontwikkeling'
Mark Vermeer - Congres 'Data gedreven Beleidsontwikkeling'Mark Vermeer - Congres 'Data gedreven Beleidsontwikkeling'
Mark Vermeer - Congres 'Data gedreven Beleidsontwikkeling'
 
DocuProces Workshop
DocuProces WorkshopDocuProces Workshop
DocuProces Workshop
 
Functie impact analyse digitale technologie p en o dagen
Functie impact analyse digitale technologie p en o dagenFunctie impact analyse digitale technologie p en o dagen
Functie impact analyse digitale technologie p en o dagen
 
Metadata oplossingen
Metadata oplossingenMetadata oplossingen
Metadata oplossingen
 
Introductie Content Strategy
Introductie Content StrategyIntroductie Content Strategy
Introductie Content Strategy
 
Knowledge Graphs: Concept, mogelijkheden en aandachtspunten
Knowledge Graphs: Concept, mogelijkheden en aandachtspuntenKnowledge Graphs: Concept, mogelijkheden en aandachtspunten
Knowledge Graphs: Concept, mogelijkheden en aandachtspunten
 
Presentatie big data (Dag van de verkoper, Cevora)
Presentatie big data (Dag van de verkoper, Cevora) Presentatie big data (Dag van de verkoper, Cevora)
Presentatie big data (Dag van de verkoper, Cevora)
 
Techniek verandert mens & organisatie!
Techniek verandert mens & organisatie!Techniek verandert mens & organisatie!
Techniek verandert mens & organisatie!
 
Beeldbank
Beeldbank Beeldbank
Beeldbank
 
Presentatie klantenmiddag 2015
Presentatie klantenmiddag 2015Presentatie klantenmiddag 2015
Presentatie klantenmiddag 2015
 
2 Nationaal Archief Metadata Platform Mrt 2007
2 Nationaal Archief Metadata Platform Mrt 20072 Nationaal Archief Metadata Platform Mrt 2007
2 Nationaal Archief Metadata Platform Mrt 2007
 
20090116 Bom Vl Sam
20090116 Bom Vl Sam20090116 Bom Vl Sam
20090116 Bom Vl Sam
 
69736_CDPO_web
69736_CDPO_web69736_CDPO_web
69736_CDPO_web
 

Mehr von meemoo, Vlaams instituut voor het archief

Mehr von meemoo, Vlaams instituut voor het archief (20)

20240425 Sectormoment podiumkunstenorganisaties meemoo
20240425 Sectormoment podiumkunstenorganisaties meemoo20240425 Sectormoment podiumkunstenorganisaties meemoo
20240425 Sectormoment podiumkunstenorganisaties meemoo
 
Publiek domein - namiddagsessie partnerevent 30 nov 2023
Publiek domein - namiddagsessie partnerevent 30 nov 2023Publiek domein - namiddagsessie partnerevent 30 nov 2023
Publiek domein - namiddagsessie partnerevent 30 nov 2023
 
Uitwisselplatform 30 november 2023
Uitwisselplatform 30 november 2023Uitwisselplatform 30 november 2023
Uitwisselplatform 30 november 2023
 
Inspiratiesessie hetarchief.be - 30 nov 2023
Inspiratiesessie hetarchief.be - 30 nov 2023Inspiratiesessie hetarchief.be - 30 nov 2023
Inspiratiesessie hetarchief.be - 30 nov 2023
 
GIVE or take_het nut van kwaliteitscontrole bij digitalisering - 30 nov 2023
GIVE or take_het nut van kwaliteitscontrole bij digitalisering - 30 nov 2023GIVE or take_het nut van kwaliteitscontrole bij digitalisering - 30 nov 2023
GIVE or take_het nut van kwaliteitscontrole bij digitalisering - 30 nov 2023
 
Presentatie partnerevent 30 nov 2023 - plenaire sessie
Presentatie partnerevent 30 nov 2023 - plenaire sessiePresentatie partnerevent 30 nov 2023 - plenaire sessie
Presentatie partnerevent 30 nov 2023 - plenaire sessie
 
Presentatie online partnerevent plenaire sessie 11 mei 2023
Presentatie online partnerevent plenaire sessie 11 mei 2023Presentatie online partnerevent plenaire sessie 11 mei 2023
Presentatie online partnerevent plenaire sessie 11 mei 2023
 
GIVE-Topstukkenproject 3D-scanning
GIVE-Topstukkenproject 3D-scanningGIVE-Topstukkenproject 3D-scanning
GIVE-Topstukkenproject 3D-scanning
 
Invulboeken voor Objecten en Publicaties
Invulboeken voor Objecten en PublicatiesInvulboeken voor Objecten en Publicaties
Invulboeken voor Objecten en Publicaties
 
Vlaamse erfgoeddatabanken
Vlaamse erfgoeddatabankenVlaamse erfgoeddatabanken
Vlaamse erfgoeddatabanken
 
Publiekdomeindag 2023 - Rechtenworkshop
Publiekdomeindag 2023 - RechtenworkshopPubliekdomeindag 2023 - Rechtenworkshop
Publiekdomeindag 2023 - Rechtenworkshop
 
Publiekdomeindag 2023
Publiekdomeindag 2023Publiekdomeindag 2023
Publiekdomeindag 2023
 
Inspiratiesessie: het groeipad sociale media
Inspiratiesessie: het groeipad sociale mediaInspiratiesessie: het groeipad sociale media
Inspiratiesessie: het groeipad sociale media
 
Presentatie online partnerevent 1 december 2022.pdf
Presentatie online partnerevent 1 december 2022.pdfPresentatie online partnerevent 1 december 2022.pdf
Presentatie online partnerevent 1 december 2022.pdf
 
20221110_PRESENTATIE Sectordag musea.pptx
20221110_PRESENTATIE Sectordag musea.pptx20221110_PRESENTATIE Sectordag musea.pptx
20221110_PRESENTATIE Sectordag musea.pptx
 
20220610_Info-sessie CP's.pptx
20220610_Info-sessie CP's.pptx20220610_Info-sessie CP's.pptx
20220610_Info-sessie CP's.pptx
 
Partnerevent 9 juni 2022 - plenair - voormiddag.pdf
Partnerevent 9 juni 2022 - plenair - voormiddag.pdfPartnerevent 9 juni 2022 - plenair - voormiddag.pdf
Partnerevent 9 juni 2022 - plenair - voormiddag.pdf
 
20220217 rechtenworkshop publiekdomeindag (1)
20220217 rechtenworkshop publiekdomeindag (1)20220217 rechtenworkshop publiekdomeindag (1)
20220217 rechtenworkshop publiekdomeindag (1)
 
Public Domain Day Belgium 2022
Public Domain Day Belgium 2022Public Domain Day Belgium 2022
Public Domain Day Belgium 2022
 
IIIF-projecten
IIIF-projectenIIIF-projecten
IIIF-projecten
 

Automatische metadatacreatie

  • 1. Metadatacreatie, 02/12/2021 Rony Vissers, Nastasia Vanderperren & Matthias Priem
  • 3. Metadata ● “Data over data” ● Gestructureerde gegevens over identificatie, beheer, aard, gebruik en bewaarplaats van fysieke of digitale bronnen. ● Verschillende categorieën, bv. descriptieve metadata, structurele metadata en administratieve metadata. ● Waarom is metadata belangrijk? ○ beheer; ○ vindbaarheid; ○ doorzoekbaarheid; ○ ....
  • 4. Metadata ● Uitdaging ○ beschrijvende metadata ontbreekt of is heel beknopt ○ juridische metadata ontbreekt of is onvolledig ○ … ● Creëren en verrijken van metadata is tijdsintensief > dus duur ● Geautomatiseerde metadatacreatie of - verrijking m.b.v. artificiële intelligentie? ○ beeldherkenning ■ OCR ■ gezichtsherkenning ○ speech-to-text ○ named entity recognition & koppeling met externe authorities ○ ...
  • 5. Metadata ● Strategisch plan 2020-2023: “Om materiaal te kunnen gebruiken, moet de inhoud zo goed mogelijk beschreven zijn en dus voorzien van rijke en correcte metadata. [...] De annotatie [...] is het domein van onze contentpartners, die inhoudelijk de nodige kennis over het gearchiveerde materiaal bezitten. We stellen echter vast dat de snelle instroom van gedigitaliseerd materiaal, gecombineerd met de groei van digitaal geboren materiaal, onze partners voor een onmogelijke uitdaging stelt. Aan de ene kant is er de vraag naar een steeds meer gedetailleerde omschrijving, aan de andere kant is er de snellere aangroei van materiaal.” ● SD 4 meemoo creëert, verzamelt en verrijkt metadata als motor voor valorisatie en hergebruik van archiefmateriaal.
  • 6. Wat hebben we al gedaan / wat doen we?
  • 7. OCR, verbetering OCR, NER, koppeling externe authorities ● Nieuws van de Groote Oorlog ● Nieuwe Tijdingen
  • 8. OCR ● Optical character recognition (OCR) In het Nederlands: optische tekenherkenning ● Transformatie waarbij uit een afbeelding van een tekst door middel van patroonherkenning alle tekens uit de afbeelding worden herkend en apart opgeslagen door een computer(programma) ● Tekst uit een afbeelding wordt omgezet in een bewerkbare tekst
  • 9. Metadata ● Optical character recognition (OCR) In het Nederlands: optische tekenherkenning ● Transformatie waarbij uit een afbeelding van een tekst door middel van patroonherkenning alle tekens uit de afbeelding worden herkend en apart opgeslagen door een computer(programma) ● Tekst uit een afbeelding wordt omgezet in een bewerkbare tekst
  • 10. Metadata ● Optical character recognition (OCR) In het Nederlands: optische tekenherkenning ● Transformatie waarbij uit een afbeelding van een tekst door middel van patroonherkenning alle tekens uit de afbeelding worden herkend en apart opgeslagen door een computer(programma) ● Tekst uit een afbeelding wordt omgezet in een bewerkbare tekst
  • 11. Metadata ● Optical character recognition (OCR) In het Nederlands: optische tekenherkenning ● Transformatie waarbij uit een afbeelding van een tekst door middel van patroonherkenning alle tekens uit de afbeelding worden herkend en apart opgeslagen door een computer(programma) ● Tekst uit een afbeelding wordt omgezet in een bewerkbare tekst
  • 12. Metadata ● Optical character recognition (OCR) In het Nederlands: optische tekenherkenning ● Transformatie waarbij uit een afbeelding van een tekst door middel van patroonherkenning alle tekens uit de afbeelding worden herkend en apart opgeslagen door een computer(programma) ● Tekst uit een afbeelding wordt omgezet in een bewerkbare tekst
  • 13.
  • 14. OCR ● Fase 1 (2021) ○ verkenning nieuwe mogelijkheden machine learning bij OCR- verbetering ○ testen van representatieve staal ● Fase 2 (2022) ○ piloot voor verbetering OCR reeds gedigitaliseerde kranten met de gekozen methode ● Fase 3 (2023)+ ○ implementatie bij nieuwe digitalisering
  • 15. Gezichtsherkenning • FAME (FAce MEtadata): operationalisering van metadata-gedreven gezichtsherkenning in de registratiepraktijk
  • 16. Terminologie • referentieset: portretfoto’s waarvan we door metadata weten wie er op staat • testset: portretfoto’s, groepsfoto’s en allerhande andere foto’s waarvan we willen weten wie erop staat. • gezichtsdetectie: het lokaliseren van gezichten op een foto • gezichtsherkenning: het plakken van een naam op een gezicht
  • 17. FAME ● Culturele organisaties slagen er onvoldoende in om omvangrijke collecties foto’s en video’s van goede metadata te voorzien. Dit tekort belemmert de online toegang en bevraging, alsook het hergebruik van digitale foto’s en video’s. ● Dit project ontwikkelt best practices om personen op die foto’s en video’s te identificeren via (semi-)geautomatiseerde gezichtsherkenning. ● Daarnaast onderzoekt dit project ook hoe bestaande metadata de accuraatheid van de gezichtsherkenning kunnen verbeteren.
  • 18. FAME ● Werkpakket 1: voorbereidend onderzoek ● Werkpakket 2: pilootproject politici en activisten herkennen ● Werkpakket 3: pilootproject sportmensen herkennen ● Werkpakket 4: pilootproject podiumkunstenaars herkennen ● Werkpakket 5: rapportering en disseminatie ● Werkpakket 6: projectadministratie
  • 19. Pilootproject politici & activisten partner 1: Archief Vlaams Parlement • > 4300 video’s van zittingen Vlaams Parlement 1992-1994 en 2001-heden • 5300 gedigitaliseerde foto’s van zittingen, recepties, feestelijkheden, ...
  • 20. Pilootproject politici & activisten partner 2: ADVN • 8300 foto’s van Wij, Vlaams Nationaal (1965-2000) • 500 video’s van VNOS (1981-2001) • ook nog film, maar nog niet gedigitaliseerd
  • 21. Pilootproject podiumkunstenaars partner: Kunstenpunt • 9000 foto’s, hoofdzakelijk van producties • video’s: documentaires, registraties, ...
  • 22. Pilootproject sportmensen • partner: KOERS • 115.000 negatieven • wielrennen, veldrijden, baanwielrennen • junioren, beloften, amateurs, profs • 1967-2006 KOERS
  • 23. Werkwijze in notendop Gezichten zoeken (via keypoints) crop encoding clustering via algoritme voorspelling via referentiesets
  • 24. Referentiesets ● onbekende gezichten clusteren met bekende gezichten ● ⇒ naam plakken op onbekende gezichten Aandachtspunten ● verschillende portretten per persoon ● veroudering ⇒ portretten uit verschillende levensfases ● kwaliteit foto
  • 25.
  • 26.
  • 27.
  • 28.
  • 29. Referentieset: welke? ● ontvangen van contentpartner ● geautomatiseerd: IMDb, Wikidata, De Wielersite, website Vlaams Parlement en Belgische Senaat ● manuele zoekactie op basis van metadata
  • 30.
  • 31. Metadata 1. voorspellen > rol referentieset 1. hulp voor afbakenen referentieset > wie kan op foto staan? 1. hulp bij validatie ○ bv. datering foto ○ bv. context voor persoon die valideert
  • 32. Metadata: welke? 1. van de contentpartners zelf • bestandsnamen (Kunstenpunt) → o.a. theatergezelschap, productie en seizoen uit pad halen • beschrijvingen • uit het MAM • open API’s, bv. Open Data Vlaams Parlement
  • 35.
  • 36.
  • 37.
  • 38. Metadata: welke? 2. koppeling maken met externe authorities • Wikidata • Belgische Senaat • ProCylingStats • De Wielersite • IMDb
  • 39. Metadata: problemen & uitdagingen 1. inconsistenties en schrijffouten • bv. schrijffouten in persoonsnamen • bv. verschillende schrijfwijzen • bv. gebruik van afkortingen bij namen ⇒ wie is het?
  • 40. Metadata: problemen & uitdagingen
  • 41. Metadata: problemen & uitdagingen 2. geen gestructureerde data • beschrijvingen en namen in vrijetekstvelden • verslagen in PDF > via NER en patroonherkenning op zoek naar persoonsnamen “Sfeerbeeld van de plenaire vergadering : Temmerman en Tobback in gesprek. Gilbert Temmerman (midden, links); Louis Tobback (midden, rechts).”
  • 42. Plenaire vergadering woensdag 7 december 2011 / Aanwezigheden: ● Robrecht Bothuyne ● Boudewijn Bouckaert ● Karin Brouwers ● Elisabeth Meuleman ● Fientje Moerman ● Lydia Peeters ● Dirk Peeters ● Fathma Pehlivan ● Jan Peumans ● Valerie Taeldeman ● Bart Tommelein ● Luckas Van Der Taelen ● Wim Van Dijck ● Kris Van Dijck ● Marc Vanden Bussche ● Marleen Vanderpoorten ● Lode Vereeck
  • 43.
  • 44.
  • 45.
  • 46. 3 studiedagen in kader van FAME-project ● onderwerpen: ○ juridische en ethische aspecten van gezichtsherkenning ○ gezichtsherkenning en opschaling van infrastructuur ○ gezichtsherkenning en transformatie van registratiepraktijk ● data: ○ namiddag 18 januari 2022, Vlaams Parlement > zie verder ○ namiddag 22 februari 2022, ADVN ○ maart
  • 47. Studiedag 1: ethische en juridische aspecten van gezichtsherkenningstechnologie ● korte introductie vanuit een breed maatschappelijk oogpunt: Dominique Deckmyn (redacteur Cultuur en Media, De Standaard) ● toelichting van juridisch kader: Rutger Goeminne (juridisch medewerker, meemoo) ● keynote-lezing : Catherine Jasserand-Breeman (Postdoctoraal onderzoeker, Centrum voor IT & IP-recht, KU Leuven) ● toelichting van de omgang met juridische en ethische aspecten binnen het FAME- project ● panelgesprek met specialisten en ervaringsdeskundigen ● Q&A-sessie >>> Vlaams Parlement (Leuvenseweg 86, 1000 Brussel), dinsdag 18 januari om 13u30 inschrijven via meemoo.be - Vormingen en events
  • 49. Metadata trajecten - context • 3 activiteiten gepland • Spraakherkenning • Gezichtsdetectie en -herkenning • Entiteitsherkenning in tekst
  • 50. Relance metadata - projectaanpak • Timing: najaar 2021 tot eind 2023 • Workflows die later ook herbruikbaar zijn • Mature technologie, beperkte onderzoekscomponent • We werken verder o.b.v. resultaten FAME en eerder onderzoek in de media en CE-sectoren. • Nauw contact met organisaties (bv. VRT, Beeld en Geluid, BBC, .. ) die hier ervaring mee hebben. • Data wordt mee opgenomen in de roadmap metadata. Timing TBD.
  • 51. Metadata - kerncijfers ● 120 contentpartners betrokken ● Per activiteit ○ Spraakherkenning en Entiteit Herkenning : meer dan 130.000 items ○ Gezichtsdetectie-en herkenning : meer dan 88.000 items
  • 52. Metadata - Spraakherkenning ● Nederlandse spraak omzetten in doorlopende tekst + tijdcodes ● 120 contentpartners betrokken ● > 130.000 items ○ 43k items audio ○ 88k items video en film ● Dit is +/- 175.000 uur
  • 53. Metadata - Spraakherkenning ● Tasks ○ Spraakherkenning zelf ○ Result = tekst + tijdscodes. ● Europese aanbestedingsprocedure ● Uitdagingen: ○ alle collecties relevant? ○ moeten we muziek/stilte uitsluiten? ○ kwaliteitscontrole (automated?)
  • 54. Metadata - Entiteit Herkenning ● Werken op basis van de teksten uit spraakherkenning ● Activiteiten ○ Entiteiten (LOC, PERS, ORG) in tekst zoeken ○ Entiteiten linken ● Meest uitdagend, want: ○ Kwaliteit van spraakherkenning? ○ Linken aan welke bronnen? ○ Hoe linken we? ○ Kwaliteitscontrole Wim Vandekeybus (Herenthout, 30 juni 1963) is een Belgisch choreograaf, regisseur en fotograaf. Zijn gezelschap Ultima Vez is gevestigd in Sint-Jans- Molenbeek (Brussel).
  • 55. Metadata - Gezichtsdetectie / herkenning ● Gezichtsdetectie ● Gezichtsherkenning ● 88.000 items, 118 content partners ● Uitdagingen? ○ Linken aan welke authorities? ○ Herbruikbaarheid ○ Privacy!
  • 56. Metadatatrajecten – DPIA • DPIA • Data Protection Impact Assessment • Oplijsting taken project • Potentiële impact op privacy • Mitigeren bepaalde risico’s • ‘Checklist’ taken in het project • Stand van zaken • Traject afgerond en goedgekeurd door DPO
  • 57. GIVE – Metadata – Projectplan
  • 58. Metadatatrajecten – team • Technische architect • Hoe zien de workflows eruit? • Waar slaan we de data op? • Hoe controleren we de kwaliteit? • Machine learning expert • Expertise met machine learning technieken • Werkt in tandem met de Technische Architect • Stand van zaken • Eerste opdracht: • Diepgaande analyse van mogelijke oplossingen, • Marktanalyse • Bestaande use cases • Voorbereiding tenders en implementatie.
  • 59. Dit project eindigt niet in 2023 ● We mogen op korte tijd veel (ruwe) data aanmaken. ● Deel van de data zal zeker rechtstreekse impact hebben op hergebruik ● Opportuniteit post 2023 en nieuwe voedingsbodem voor projecten / ontsluiting
  • 60. Communicatieplan wordt verder uitgewerkt; daarin aandacht voor: • informeren: • partnerupdates • partnerportaal • tijdens partnerevent of ad hoc • inspraak en feedback: • stuurgroepen • werkgroepen • vragenlijsten • jury’s Communicatie / Betrokkenheid CONTACTEER ONS mail Matthias of uw favoriete account manager