2. Arjan van Hessen
CLARIAH
Een infrastructuurprogramma
waarmee het mogelijk moet
worden dat alle onderzoekers uit
de geesteswetenschappen
moderne Taal- en
Spraaktechnologie op een
eenvoudige wijze kunnen
gebruiken
HMI
Onderzoek naar het toepassen
van Spraaktechnologie in multi-
modale mens-machine
communicatie.
Telecats
Toepassen van de nieuwste
ontwikkelingen op het
gebied van TST in
daadwerkelijk werkende
applicaties voor men-
machine communicatie
4. Taal heeft in het algemeen betrekking op elke min of meer
complexe vorm van communicatie in de vorm van uitingen, die
gezamenlijk een systeem vormen.
De betekenis van de uitingen (spraak, gebaar, schrift) wordt
bepaald door:
• de vorm ervan
• de volgorde waarin ze geuit worden
Het vermogen taal te
leren is aangeboren.
De uitingsvorm van
taal is aangeleerd
De mate waarin taal geleerd kan
worden neemt sterk af na je 16de
6. De mens als talig wezen
De ontwikkeling van de
menselijke taal (of spraak) is
waarschijnlijk 100.000 jaar
geleden begonnen.
Daarvóór hadden de menselijke
kaak, de mond en de larynx de
verkeerde vorm om woorden te
vormen.
(iets dat we nu nog bij apen zien)
7. De mens als talig wezen
Het pictografische schrift (3300
AD Sumer, Mesopotamië) is voor
zover bekend, de oudste
geschreven taal.
-3300
schrift
-10.000
landbouw
-100.000
spraak
NU
8. Taal- en Spraaktechnologie (TST) is de
technologie die zich richt op het imiteren
door computers van het talige deel van de
menselijke communicatie.
Doel:
• Het mogelijk maken op “natuurlijke” wijze met
apparaten te communiceren
• De Turingtest winnen
15. ONTSTLUITING WORDT EEN PROBLEEM
Juiste metadata nodig over:
• Standaard zaken (naam, datum, drager, eigenaar, onderwerp)
• Inhoud (overall, en per fragment)
19. Spraakherkenning
Zeer sterke verbetering door
beschikbaarheid van:
• Massieve hoeveelheid data
(spraak en tekst)
• Bijna onbeperkte rekencapaciteit
(cloud computing)
• Deep Learning Algoritmes
30. Bepaal de topics-in-time van alle
bestanden
A A A
B B B
C C C
B
CC
AAA
B
Ontstaan van
Heelal
Eeuwige jeugd
bereikbaar?
Verliefdheid bij
honden
Terrorisme
31. Search
Omgangsrecht
Topic 7
MOOC X (T1-T2)
MOOC X (T3-T4)
Interview Q (T5-T6)
Documentary W (T7-
T8)
PPT 12 (S10-S12)
PPT 19 (S1-S7)
Keynote 99 (S9-S11)
32. Topic clustering
• Bijeen brengen van verschillende bronnen
die over het zelfde onderwerp gaan.
TOPIC
Weekers
36. Spraakherkenning
• Niet (=nooit) perfect, maar is ondertiteling noodzakelijk?
• Doe eerste stap met de machine, vraag daarna “mensen”
om hulp
Spraakherkenning
Imperfect
resultaat
Crowd sourcing
Perfect
resultaat
Imperfect
resultaat
Crowd sourcingPerfect
resultaat
Fase A Fase B
Fase CFase D
39. Zoeken en Tonen 2016
Zoeken
• String-match
• Semantisch zoeken
• Conceptueel zoeken
Presenteren
zoekresultaten
• Alfabetisch?
• Op tijd?
• Op relevantie?
40. Zoeken en Tonen 2016
Zoekwoord:
10x in document
Document bevat
8000 woorden
Heeft 4§ en zoek-
woorden zijn
homogeen verdeeld
Zoekwoord:
15x in document
Document bevat
20000 woorden
Heeft 2§ en in 1§
komen alle
zoekwoorden voor
48. Deep Learning
Het leren gebeurt
door het aanpassen
van de verschil-
lende gewichten (wi)
en hoe je dat doet
(lineaire, of anders)
See: http://www.amax.com/blog/?p=804
Er is sprake van exponentiele groei van AV data ten koste van gesproken tekst, hoe moeten volgende generaties onderzoekers hier mee om gaan? Hoe moeten ze wijs worden uit deze Tsunami aan data, nieuwe vormen van samenwerking, over de grenzen van disciplines heen, moet gereguleerd worden,