SlideShare ist ein Scribd-Unternehmen logo
1 von 50
Downloaden Sie, um offline zu lesen
DRONGO
Zoeken in AV-docs
Taal- en Spraaktechnologie voor
het ontsluiten van opgenomen
AV-documenten
Arjan van Hessen
CLARIAH
Een infrastructuurprogramma
waarmee het mogelijk moet
worden dat alle onderzoekers uit
de geesteswetenschappen
moderne Taal- en
Spraaktechnologie op een
eenvoudige wijze kunnen
gebruiken
HMI
Onderzoek naar het toepassen
van Spraaktechnologie in multi-
modale mens-machine
communicatie.
Telecats
Toepassen van de nieuwste
ontwikkelingen op het
gebied van TST in
daadwerkelijk werkende
applicaties voor men-
machine communicatie
WAT IS DAT: TAAL?
Taal heeft in het algemeen betrekking op elke min of meer
complexe vorm van communicatie in de vorm van uitingen, die
gezamenlijk een systeem vormen.
De betekenis van de uitingen (spraak, gebaar, schrift) wordt
bepaald door:
• de vorm ervan
• de volgorde waarin ze geuit worden
Het vermogen taal te
leren is aangeboren.
De uitingsvorm van
taal is aangeleerd
De mate waarin taal geleerd kan
worden neemt sterk af na je 16de
TAAL
spraak
schrift
gebaren-
taal
lichaams
-taal
De mens als talig wezen
De ontwikkeling van de
menselijke taal (of spraak) is
waarschijnlijk 100.000 jaar
geleden begonnen.
Daarvóór hadden de menselijke
kaak, de mond en de larynx de
verkeerde vorm om woorden te
vormen.
(iets dat we nu nog bij apen zien)
De mens als talig wezen
Het pictografische schrift (3300
AD Sumer, Mesopotamië) is voor
zover bekend, de oudste
geschreven taal.
-3300
schrift
-10.000
landbouw
-100.000
spraak
NU
Taal- en Spraaktechnologie (TST) is de
technologie die zich richt op het imiteren
door computers van het talige deel van de
menselijke communicatie.
Doel:
• Het mogelijk maken op “natuurlijke” wijze met
apparaten te communiceren
• De Turingtest winnen 
VASTLEGGEN VAN INFORMATIE
3300 BC – nu
Omzetten van talige informatie in…....
Vastleggen van Taal
Het pictografische schrift (3300 AD Sumer, Mesopotamië) is
voor zover bekend, de oudste geschreven taal.
Stijging aantal boeken
Vastleggen origineel
Stijging AV-data
Drongo: Zoeken in Audiovisuele Documenten
ONTSTLUITING WORDT EEN PROBLEEM
Juiste metadata nodig over:
• Standaard zaken (naam, datum, drager, eigenaar, onderwerp)
• Inhoud (overall, en per fragment)
Standaard metadata
Dynamic MetadataStatic Metadata
Metadata
Bestandsniveau
Bestandsniveau
Bestandsniveau
Bestandsniveau
Bestandsniveau
Topic 1
( T1  T2)
Topic 2
( T3  T4)
Topic 2
( T5  T6)
Hfdst. 1
( T1*  T2*)
Hfdst. 2
( T3*  T4*)
Spreker 1
( T1”  T2”)
Spreker 2
( T3”  T4”)
Spreker 1
( T5”  T6”)
Spreker 1&2
( T7”  T8”)
? ? ? ?
Collectie
niveau
Waar gaat het over?
Wie spreken er?
Welke taal?
Wat is het niveau?
Hoe kan ik er bij?
ONTSLUITEN
Zoeken en relevante resultaten terugkrijgen
Spraakherkenning
Zeer sterke verbetering door
beschikbaarheid van:
• Massieve hoeveelheid data
(spraak en tekst)
• Bijna onbeperkte rekencapaciteit
(cloud computing)
• Deep Learning Algoritmes
WORDT HET AL GEBRUIKT?
FIODspraak
Spraaktechnologie voor ondersteuning FIOD-medewerkers
bij verwerken opgenomen AV-gesprekken
Voor zoeken naar- en terugluisteren van speciale passages
Partners
Tweede Kamer
Universiteit van Nederland
Drongo: Zoeken in Audiovisuele Documenten
Drongo: Zoeken in Audiovisuele Documenten
Drongo: Zoeken in Audiovisuele Documenten
Drongo: Zoeken in Audiovisuele Documenten
EN DIT WAS ÉÉN AV-BESTAND
Bepaal de topics-in-time van alle
bestanden
A A A
B B B
C C C
B
CC
AAA
B
Ontstaan van
Heelal
Eeuwige jeugd
bereikbaar?
Verliefdheid bij
honden
Terrorisme
Search
Omgangsrecht
Topic 7
MOOC X (T1-T2)
MOOC X (T3-T4)
Interview Q (T5-T6)
Documentary W (T7-
T8)
PPT 12 (S10-S12)
PPT 19 (S1-S7)
Keynote 99 (S9-S11)
Topic clustering
• Bijeen brengen van verschillende bronnen
die over het zelfde onderwerp gaan.
TOPIC
Weekers
AUTOMATISCH VERTALEN
Vergroten zichtbaarheid “lokale” AV-bestanden
Drongo: Zoeken in Audiovisuele Documenten
Drongo: Zoeken in Audiovisuele Documenten
Spraakherkenning
• Niet (=nooit) perfect, maar is ondertiteling noodzakelijk?
• Doe eerste stap met de machine, vraag daarna “mensen”
om hulp
Spraakherkenning
Imperfect
resultaat
Crowd sourcing
Perfect
resultaat
Imperfect
resultaat
Crowd sourcingPerfect
resultaat
Fase A Fase B
Fase CFase D
Drongo: Zoeken in Audiovisuele Documenten
WAT MISSEN WE NOG?
Zoeken en Tonen 2016
Zoeken
• String-match
• Semantisch zoeken
• Conceptueel zoeken
Presenteren
zoekresultaten
• Alfabetisch?
• Op tijd?
• Op relevantie?
Zoeken en Tonen 2016
Zoekwoord:
10x in document
Document bevat
8000 woorden
Heeft 4§ en zoek-
woorden zijn
homogeen verdeeld
Zoekwoord:
15x in document
Document bevat
20000 woorden
Heeft 2§ en in 1§
komen alle
zoekwoorden voor
Social Signals in Spraak
EMOTIE
Drongo: Zoeken in Audiovisuele Documenten
HOE GAAN WE DIT DOEN?
AI, KI, ML, DNN
Drongo: Zoeken in Audiovisuele Documenten
Drongo: Zoeken in Audiovisuele Documenten
Deep Learning
Drongo: Zoeken in Audiovisuele Documenten
Deep Learning
Het leren gebeurt
door het aanpassen
van de verschil-
lende gewichten (wi)
en hoe je dat doet
(lineaire, of anders)
See: http://www.amax.com/blog/?p=804
Drongo: Zoeken in Audiovisuele Documenten
VRAGEN ?

Weitere ähnliche Inhalte

Andere mochten auch

Content Marketing Master Class - San Francisco: Epilogue
Content Marketing Master Class - San Francisco: EpilogueContent Marketing Master Class - San Francisco: Epilogue
Content Marketing Master Class - San Francisco: EpilogueContent Marketing Institute
 
Consulta respecto a la Constitucionalidad de Norma Relacionada con la Pensión...
Consulta respecto a la Constitucionalidad de Norma Relacionada con la Pensión...Consulta respecto a la Constitucionalidad de Norma Relacionada con la Pensión...
Consulta respecto a la Constitucionalidad de Norma Relacionada con la Pensión...Dra. Roxana Silva Ch.
 
Engage All The Things: Rethinking Online Engagement
Engage All The Things: Rethinking Online EngagementEngage All The Things: Rethinking Online Engagement
Engage All The Things: Rethinking Online EngagementFarra Trompeter, Big Duck
 
Devoxx 2013 - David Tillemans - Security Test Automation in Software Developm...
Devoxx 2013 - David Tillemans - Security Test Automation in Software Developm...Devoxx 2013 - David Tillemans - Security Test Automation in Software Developm...
Devoxx 2013 - David Tillemans - Security Test Automation in Software Developm...Smals
 
Виховна робота
Виховна робота Виховна робота
Виховна робота kpschool7
 
Viral is a Dirty Word
Viral is a Dirty WordViral is a Dirty Word
Viral is a Dirty WordOgilvy
 
Radiation reactors
Radiation reactorsRadiation reactors
Radiation reactorsjmocherman
 
名人美食經
名人美食經名人美食經
名人美食經honan4108
 
Hiscox case study
Hiscox case studyHiscox case study
Hiscox case studyNewsworks
 
Biodiversidad, erosión y contaminación genética del maíz nativo en américa la...
Biodiversidad, erosión y contaminación genética del maíz nativo en américa la...Biodiversidad, erosión y contaminación genética del maíz nativo en américa la...
Biodiversidad, erosión y contaminación genética del maíz nativo en américa la...Chile Sustentable
 
The 2016 HealthMine Digital Health Report
The 2016 HealthMine Digital Health ReportThe 2016 HealthMine Digital Health Report
The 2016 HealthMine Digital Health ReportFrenchWeb.fr
 

Andere mochten auch (14)

Content Marketing Master Class - San Francisco: Epilogue
Content Marketing Master Class - San Francisco: EpilogueContent Marketing Master Class - San Francisco: Epilogue
Content Marketing Master Class - San Francisco: Epilogue
 
Consulta respecto a la Constitucionalidad de Norma Relacionada con la Pensión...
Consulta respecto a la Constitucionalidad de Norma Relacionada con la Pensión...Consulta respecto a la Constitucionalidad de Norma Relacionada con la Pensión...
Consulta respecto a la Constitucionalidad de Norma Relacionada con la Pensión...
 
Engage All The Things: Rethinking Online Engagement
Engage All The Things: Rethinking Online EngagementEngage All The Things: Rethinking Online Engagement
Engage All The Things: Rethinking Online Engagement
 
Devoxx 2013 - David Tillemans - Security Test Automation in Software Developm...
Devoxx 2013 - David Tillemans - Security Test Automation in Software Developm...Devoxx 2013 - David Tillemans - Security Test Automation in Software Developm...
Devoxx 2013 - David Tillemans - Security Test Automation in Software Developm...
 
Виховна робота
Виховна робота Виховна робота
Виховна робота
 
Viral is a Dirty Word
Viral is a Dirty WordViral is a Dirty Word
Viral is a Dirty Word
 
Radiation reactors
Radiation reactorsRadiation reactors
Radiation reactors
 
名人美食經
名人美食經名人美食經
名人美食經
 
Hiscox case study
Hiscox case studyHiscox case study
Hiscox case study
 
2
22
2
 
My influences
My influencesMy influences
My influences
 
Biodiversidad, erosión y contaminación genética del maíz nativo en américa la...
Biodiversidad, erosión y contaminación genética del maíz nativo en américa la...Biodiversidad, erosión y contaminación genética del maíz nativo en américa la...
Biodiversidad, erosión y contaminación genética del maíz nativo en américa la...
 
The 2016 HealthMine Digital Health Report
The 2016 HealthMine Digital Health ReportThe 2016 HealthMine Digital Health Report
The 2016 HealthMine Digital Health Report
 
BGCA 2016
BGCA 2016BGCA 2016
BGCA 2016
 

Mehr von NOTaS

Klinkende Taal Educatief
Klinkende Taal EducatiefKlinkende Taal Educatief
Klinkende Taal EducatiefNOTaS
 
Voices for Speech Synthesis
Voices for Speech SynthesisVoices for Speech Synthesis
Voices for Speech SynthesisNOTaS
 
Education applications: Basilex and Basiscript
Education applications: Basilex and BasiscriptEducation applications: Basilex and Basiscript
Education applications: Basilex and BasiscriptNOTaS
 
Nao at the Radboud University
Nao at the Radboud UniversityNao at the Radboud University
Nao at the Radboud UniversityNOTaS
 
Presentation Helmer Strik for Zwijsen
Presentation Helmer Strik for ZwijsenPresentation Helmer Strik for Zwijsen
Presentation Helmer Strik for ZwijsenNOTaS
 
TST voor het Onderwijs
TST voor het OnderwijsTST voor het Onderwijs
TST voor het OnderwijsNOTaS
 

Mehr von NOTaS (6)

Klinkende Taal Educatief
Klinkende Taal EducatiefKlinkende Taal Educatief
Klinkende Taal Educatief
 
Voices for Speech Synthesis
Voices for Speech SynthesisVoices for Speech Synthesis
Voices for Speech Synthesis
 
Education applications: Basilex and Basiscript
Education applications: Basilex and BasiscriptEducation applications: Basilex and Basiscript
Education applications: Basilex and Basiscript
 
Nao at the Radboud University
Nao at the Radboud UniversityNao at the Radboud University
Nao at the Radboud University
 
Presentation Helmer Strik for Zwijsen
Presentation Helmer Strik for ZwijsenPresentation Helmer Strik for Zwijsen
Presentation Helmer Strik for Zwijsen
 
TST voor het Onderwijs
TST voor het OnderwijsTST voor het Onderwijs
TST voor het Onderwijs
 

Drongo: Zoeken in Audiovisuele Documenten

  • 1. DRONGO Zoeken in AV-docs Taal- en Spraaktechnologie voor het ontsluiten van opgenomen AV-documenten
  • 2. Arjan van Hessen CLARIAH Een infrastructuurprogramma waarmee het mogelijk moet worden dat alle onderzoekers uit de geesteswetenschappen moderne Taal- en Spraaktechnologie op een eenvoudige wijze kunnen gebruiken HMI Onderzoek naar het toepassen van Spraaktechnologie in multi- modale mens-machine communicatie. Telecats Toepassen van de nieuwste ontwikkelingen op het gebied van TST in daadwerkelijk werkende applicaties voor men- machine communicatie
  • 3. WAT IS DAT: TAAL?
  • 4. Taal heeft in het algemeen betrekking op elke min of meer complexe vorm van communicatie in de vorm van uitingen, die gezamenlijk een systeem vormen. De betekenis van de uitingen (spraak, gebaar, schrift) wordt bepaald door: • de vorm ervan • de volgorde waarin ze geuit worden Het vermogen taal te leren is aangeboren. De uitingsvorm van taal is aangeleerd De mate waarin taal geleerd kan worden neemt sterk af na je 16de
  • 6. De mens als talig wezen De ontwikkeling van de menselijke taal (of spraak) is waarschijnlijk 100.000 jaar geleden begonnen. Daarvóór hadden de menselijke kaak, de mond en de larynx de verkeerde vorm om woorden te vormen. (iets dat we nu nog bij apen zien)
  • 7. De mens als talig wezen Het pictografische schrift (3300 AD Sumer, Mesopotamië) is voor zover bekend, de oudste geschreven taal. -3300 schrift -10.000 landbouw -100.000 spraak NU
  • 8. Taal- en Spraaktechnologie (TST) is de technologie die zich richt op het imiteren door computers van het talige deel van de menselijke communicatie. Doel: • Het mogelijk maken op “natuurlijke” wijze met apparaten te communiceren • De Turingtest winnen 
  • 9. VASTLEGGEN VAN INFORMATIE 3300 BC – nu Omzetten van talige informatie in…....
  • 10. Vastleggen van Taal Het pictografische schrift (3300 AD Sumer, Mesopotamië) is voor zover bekend, de oudste geschreven taal.
  • 15. ONTSTLUITING WORDT EEN PROBLEEM Juiste metadata nodig over: • Standaard zaken (naam, datum, drager, eigenaar, onderwerp) • Inhoud (overall, en per fragment)
  • 17. Dynamic MetadataStatic Metadata Metadata Bestandsniveau Bestandsniveau Bestandsniveau Bestandsniveau Bestandsniveau Topic 1 ( T1  T2) Topic 2 ( T3  T4) Topic 2 ( T5  T6) Hfdst. 1 ( T1*  T2*) Hfdst. 2 ( T3*  T4*) Spreker 1 ( T1”  T2”) Spreker 2 ( T3”  T4”) Spreker 1 ( T5”  T6”) Spreker 1&2 ( T7”  T8”) ? ? ? ? Collectie niveau Waar gaat het over? Wie spreken er? Welke taal? Wat is het niveau? Hoe kan ik er bij?
  • 18. ONTSLUITEN Zoeken en relevante resultaten terugkrijgen
  • 19. Spraakherkenning Zeer sterke verbetering door beschikbaarheid van: • Massieve hoeveelheid data (spraak en tekst) • Bijna onbeperkte rekencapaciteit (cloud computing) • Deep Learning Algoritmes
  • 20. WORDT HET AL GEBRUIKT?
  • 21. FIODspraak Spraaktechnologie voor ondersteuning FIOD-medewerkers bij verwerken opgenomen AV-gesprekken Voor zoeken naar- en terugluisteren van speciale passages
  • 29. EN DIT WAS ÉÉN AV-BESTAND
  • 30. Bepaal de topics-in-time van alle bestanden A A A B B B C C C B CC AAA B Ontstaan van Heelal Eeuwige jeugd bereikbaar? Verliefdheid bij honden Terrorisme
  • 31. Search Omgangsrecht Topic 7 MOOC X (T1-T2) MOOC X (T3-T4) Interview Q (T5-T6) Documentary W (T7- T8) PPT 12 (S10-S12) PPT 19 (S1-S7) Keynote 99 (S9-S11)
  • 32. Topic clustering • Bijeen brengen van verschillende bronnen die over het zelfde onderwerp gaan. TOPIC Weekers
  • 33. AUTOMATISCH VERTALEN Vergroten zichtbaarheid “lokale” AV-bestanden
  • 36. Spraakherkenning • Niet (=nooit) perfect, maar is ondertiteling noodzakelijk? • Doe eerste stap met de machine, vraag daarna “mensen” om hulp Spraakherkenning Imperfect resultaat Crowd sourcing Perfect resultaat Imperfect resultaat Crowd sourcingPerfect resultaat Fase A Fase B Fase CFase D
  • 39. Zoeken en Tonen 2016 Zoeken • String-match • Semantisch zoeken • Conceptueel zoeken Presenteren zoekresultaten • Alfabetisch? • Op tijd? • Op relevantie?
  • 40. Zoeken en Tonen 2016 Zoekwoord: 10x in document Document bevat 8000 woorden Heeft 4§ en zoek- woorden zijn homogeen verdeeld Zoekwoord: 15x in document Document bevat 20000 woorden Heeft 2§ en in 1§ komen alle zoekwoorden voor
  • 41. Social Signals in Spraak EMOTIE
  • 43. HOE GAAN WE DIT DOEN? AI, KI, ML, DNN
  • 48. Deep Learning Het leren gebeurt door het aanpassen van de verschil- lende gewichten (wi) en hoe je dat doet (lineaire, of anders) See: http://www.amax.com/blog/?p=804

Hinweis der Redaktion

  1. Één één
  2. Er is sprake van exponentiele groei van AV data ten koste van gesproken tekst, hoe moeten volgende generaties onderzoekers hier mee om gaan? Hoe moeten ze wijs worden uit deze Tsunami aan data, nieuwe vormen van samenwerking, over de grenzen van disciplines heen, moet gereguleerd worden,