3. Metadata
● “Data over data”
● Gestructureerde gegevens over identificatie, beheer, aard, gebruik en
bewaarplaats van fysieke of digitale bronnen.
● Verschillende categorieën, bv. descriptieve metadata, structurele
metadata en administratieve metadata.
● Waarom is metadata belangrijk?
○ beheer;
○ vindbaarheid;
○ doorzoekbaarheid;
○ ....
4. Metadata
● Uitdaging
○ beschrijvende metadata ontbreekt of is heel beknopt
○ juridische metadata ontbreekt of is onvolledig
○ …
● Creëren en verrijken van metadata is tijdsintensief > dus duur
● Geautomatiseerde metadatacreatie of - verrijking m.b.v. artificiële
intelligentie?
○ beeldherkenning
■ OCR
■ gezichtsherkenning
○ speech-to-text
○ named entity recognition & koppeling met externe authorities
○ ...
5. Metadata
● Strategisch plan 2020-2023:
“Om materiaal te kunnen gebruiken, moet de inhoud zo goed mogelijk
beschreven zijn en dus voorzien van rijke en correcte metadata. [...] De annotatie
[...] is het domein van onze contentpartners, die inhoudelijk de nodige kennis over
het gearchiveerde materiaal bezitten. We stellen echter vast dat de snelle
instroom van gedigitaliseerd materiaal, gecombineerd met de groei van digitaal
geboren materiaal, onze partners voor een onmogelijke uitdaging stelt. Aan de
ene kant is er de vraag naar een steeds meer gedetailleerde omschrijving, aan de
andere kant is er de snellere aangroei van materiaal.”
● SD 4 meemoo creëert, verzamelt en verrijkt metadata als motor voor
valorisatie en hergebruik van archiefmateriaal.
7. OCR, verbetering OCR,
NER, koppeling
externe authorities
● Nieuws van de Groote Oorlog
● Nieuwe Tijdingen
8. OCR
● Optical character recognition (OCR)
In het Nederlands: optische tekenherkenning
● Transformatie waarbij uit een afbeelding van een tekst door middel van
patroonherkenning alle tekens uit de afbeelding worden herkend en
apart opgeslagen door een computer(programma)
● Tekst uit een afbeelding wordt omgezet in een bewerkbare tekst
9. Metadata
● Optical character recognition (OCR)
In het Nederlands: optische tekenherkenning
● Transformatie waarbij uit een afbeelding van een tekst door middel van
patroonherkenning alle tekens uit de afbeelding worden herkend en
apart opgeslagen door een computer(programma)
● Tekst uit een afbeelding wordt omgezet in een bewerkbare tekst
10. Metadata
● Optical character recognition (OCR)
In het Nederlands: optische tekenherkenning
● Transformatie waarbij uit een afbeelding van een tekst door middel van
patroonherkenning alle tekens uit de afbeelding worden herkend en
apart opgeslagen door een computer(programma)
● Tekst uit een afbeelding wordt omgezet in een bewerkbare tekst
11. Metadata
● Optical character recognition (OCR)
In het Nederlands: optische tekenherkenning
● Transformatie waarbij uit een afbeelding van een tekst door middel van
patroonherkenning alle tekens uit de afbeelding worden herkend en
apart opgeslagen door een computer(programma)
● Tekst uit een afbeelding wordt omgezet in een bewerkbare tekst
12. Metadata
● Optical character recognition (OCR)
In het Nederlands: optische tekenherkenning
● Transformatie waarbij uit een afbeelding van een tekst door middel van
patroonherkenning alle tekens uit de afbeelding worden herkend en
apart opgeslagen door een computer(programma)
● Tekst uit een afbeelding wordt omgezet in een bewerkbare tekst
13.
14. OCR
● Fase 1 (2021)
○ verkenning nieuwe mogelijkheden machine learning bij OCR-
verbetering
○ testen van representatieve staal
● Fase 2 (2022)
○ piloot voor verbetering OCR reeds gedigitaliseerde kranten met de
gekozen methode
● Fase 3 (2023)+
○ implementatie bij nieuwe digitalisering
15. Gezichtsherkenning
• FAME (FAce MEtadata):
operationalisering van
metadata-gedreven
gezichtsherkenning in de
registratiepraktijk
16. Terminologie
• referentieset: portretfoto’s waarvan we door metadata weten wie er op
staat
• testset: portretfoto’s, groepsfoto’s en allerhande andere foto’s waarvan
we willen weten wie erop staat.
• gezichtsdetectie: het lokaliseren van gezichten op een foto
• gezichtsherkenning: het plakken van een naam op een gezicht
17. FAME
● Culturele organisaties slagen er onvoldoende in om omvangrijke
collecties foto’s en video’s van goede metadata te voorzien. Dit tekort
belemmert de online toegang en bevraging, alsook het hergebruik van
digitale foto’s en video’s.
● Dit project ontwikkelt best practices om personen op die foto’s en
video’s te identificeren via (semi-)geautomatiseerde
gezichtsherkenning.
● Daarnaast onderzoekt dit project ook hoe bestaande metadata de
accuraatheid van de gezichtsherkenning kunnen verbeteren.
19. Pilootproject politici & activisten
partner 1: Archief Vlaams Parlement
• > 4300 video’s van zittingen
Vlaams Parlement 1992-1994 en
2001-heden
• 5300 gedigitaliseerde foto’s van
zittingen, recepties,
feestelijkheden, ...
20. Pilootproject politici & activisten
partner 2: ADVN
• 8300 foto’s van Wij, Vlaams
Nationaal (1965-2000)
• 500 video’s van VNOS (1981-2001)
• ook nog film, maar nog niet
gedigitaliseerd
23. Werkwijze in notendop
Gezichten zoeken (via keypoints)
crop
encoding clustering via algoritme
voorspelling via referentiesets
24. Referentiesets
● onbekende gezichten clusteren met bekende gezichten
● ⇒ naam plakken op onbekende gezichten
Aandachtspunten
● verschillende portretten per persoon
● veroudering ⇒ portretten uit verschillende levensfases
● kwaliteit foto
25.
26.
27.
28.
29. Referentieset: welke?
● ontvangen van contentpartner
● geautomatiseerd: IMDb, Wikidata, De Wielersite, website Vlaams
Parlement en Belgische Senaat
● manuele zoekactie op basis van metadata
30.
31. Metadata
1. voorspellen > rol referentieset
1. hulp voor afbakenen referentieset > wie kan op foto staan?
1. hulp bij validatie
○ bv. datering foto
○ bv. context voor persoon die valideert
32. Metadata: welke?
1. van de contentpartners zelf
• bestandsnamen (Kunstenpunt) → o.a. theatergezelschap,
productie en seizoen uit pad halen
• beschrijvingen
• uit het MAM
• open API’s, bv. Open Data Vlaams Parlement
38. Metadata: welke?
2. koppeling maken met externe authorities
• Wikidata
• Belgische Senaat
• ProCylingStats
• De Wielersite
• IMDb
39. Metadata: problemen & uitdagingen
1. inconsistenties en schrijffouten
• bv. schrijffouten in persoonsnamen
• bv. verschillende schrijfwijzen
• bv. gebruik van afkortingen bij namen ⇒ wie is het?
41. Metadata: problemen & uitdagingen
2. geen gestructureerde data
• beschrijvingen en namen in vrijetekstvelden
• verslagen in PDF
> via NER en patroonherkenning op zoek naar persoonsnamen
“Sfeerbeeld van de plenaire vergadering : Temmerman en Tobback in
gesprek.
Gilbert Temmerman (midden, links); Louis Tobback (midden, rechts).”
42. Plenaire vergadering woensdag 7 december
2011 / Aanwezigheden:
● Robrecht Bothuyne
● Boudewijn Bouckaert
● Karin Brouwers
● Elisabeth Meuleman
● Fientje Moerman
● Lydia Peeters
● Dirk Peeters
● Fathma Pehlivan
● Jan Peumans
● Valerie Taeldeman
● Bart Tommelein
● Luckas Van Der Taelen
● Wim Van Dijck
● Kris Van Dijck
● Marc Vanden Bussche
● Marleen Vanderpoorten
● Lode Vereeck
43.
44.
45.
46. 3 studiedagen in kader van FAME-project
● onderwerpen:
○ juridische en ethische aspecten van gezichtsherkenning
○ gezichtsherkenning en opschaling van infrastructuur
○ gezichtsherkenning en transformatie van registratiepraktijk
● data:
○ namiddag 18 januari 2022, Vlaams Parlement > zie verder
○ namiddag 22 februari 2022, ADVN
○ maart
47. Studiedag 1: ethische en juridische aspecten
van gezichtsherkenningstechnologie
● korte introductie vanuit een breed maatschappelijk oogpunt: Dominique Deckmyn
(redacteur Cultuur en Media, De Standaard)
● toelichting van juridisch kader: Rutger Goeminne (juridisch medewerker, meemoo)
● keynote-lezing : Catherine Jasserand-Breeman (Postdoctoraal onderzoeker, Centrum
voor IT & IP-recht, KU Leuven)
● toelichting van de omgang met juridische en ethische aspecten binnen het FAME-
project
● panelgesprek met specialisten en ervaringsdeskundigen
● Q&A-sessie
>>> Vlaams Parlement (Leuvenseweg 86, 1000 Brussel), dinsdag 18 januari om 13u30
inschrijven via meemoo.be - Vormingen en events
49. Metadata trajecten - context
• 3 activiteiten gepland
• Spraakherkenning
• Gezichtsdetectie en -herkenning
• Entiteitsherkenning in tekst
50. Relance metadata - projectaanpak
• Timing: najaar 2021 tot eind 2023
• Workflows die later ook herbruikbaar zijn
• Mature technologie, beperkte onderzoekscomponent
• We werken verder o.b.v. resultaten FAME en eerder onderzoek in de
media en CE-sectoren.
• Nauw contact met organisaties (bv. VRT, Beeld en Geluid, BBC, .. )
die hier ervaring mee hebben.
• Data wordt mee opgenomen in de roadmap metadata. Timing TBD.
51. Metadata - kerncijfers
● 120 contentpartners betrokken
● Per activiteit
○ Spraakherkenning en Entiteit
Herkenning : meer dan 130.000
items
○ Gezichtsdetectie-en herkenning :
meer dan 88.000 items
52. Metadata - Spraakherkenning
● Nederlandse spraak omzetten in
doorlopende tekst + tijdcodes
● 120 contentpartners betrokken
● > 130.000 items
○ 43k items audio
○ 88k items video en film
● Dit is +/- 175.000 uur
53. Metadata - Spraakherkenning
● Tasks
○ Spraakherkenning zelf
○ Result = tekst + tijdscodes.
● Europese
aanbestedingsprocedure
● Uitdagingen:
○ alle collecties relevant?
○ moeten we muziek/stilte uitsluiten?
○ kwaliteitscontrole (automated?)
54. Metadata - Entiteit Herkenning
● Werken op basis van de teksten uit
spraakherkenning
● Activiteiten
○ Entiteiten (LOC, PERS, ORG) in tekst zoeken
○ Entiteiten linken
● Meest uitdagend, want:
○ Kwaliteit van spraakherkenning?
○ Linken aan welke bronnen?
○ Hoe linken we?
○ Kwaliteitscontrole
Wim Vandekeybus
(Herenthout, 30 juni 1963) is
een Belgisch choreograaf,
regisseur en fotograaf. Zijn
gezelschap Ultima Vez is
gevestigd in Sint-Jans-
Molenbeek (Brussel).
56. Metadatatrajecten – DPIA
• DPIA
• Data Protection Impact Assessment
• Oplijsting taken project
• Potentiële impact op privacy
• Mitigeren bepaalde risico’s
• ‘Checklist’ taken in het project
• Stand van zaken
• Traject afgerond en goedgekeurd
door DPO
58. Metadatatrajecten – team
• Technische architect
• Hoe zien de workflows eruit?
• Waar slaan we de data op?
• Hoe controleren we de kwaliteit?
• Machine learning expert
• Expertise met machine learning technieken
• Werkt in tandem met de Technische Architect
• Stand van zaken
• Eerste opdracht:
• Diepgaande analyse van mogelijke oplossingen,
• Marktanalyse
• Bestaande use cases
• Voorbereiding tenders en implementatie.
59. Dit project eindigt niet in 2023
● We mogen op korte tijd veel
(ruwe) data aanmaken.
● Deel van de data zal zeker
rechtstreekse impact
hebben op hergebruik
● Opportuniteit post 2023 en
nieuwe voedingsbodem
voor projecten / ontsluiting
60. Communicatieplan wordt verder uitgewerkt; daarin aandacht voor:
• informeren:
• partnerupdates
• partnerportaal
• tijdens partnerevent of ad hoc
• inspraak en feedback:
• stuurgroepen
• werkgroepen
• vragenlijsten
• jury’s
Communicatie / Betrokkenheid
CONTACTEER
ONS
mail Matthias
of uw favoriete
account manager