These slides are about the conversion framework Pepper for linguistic data and the common meta model Salt it is based on. Further they address the problem of the multiverse of formats for linguistic data. The slides are in German.
Diese Folien beschreiben das Problem des Formatpluriversums für linguistische Daten sowie das Konverterframeork Pepper und das Metamodell Salt, die entwickelt wurden, um mit den unterscheidlichen Formaten umgehen zu können.
1. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
1
Florian Zipser
Humboldt-Universität zu Berlin
SaltNPepper und das Formatpluriversum
LAUDATIO Workshop
2014-10-07
2. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
2
Heterogene Domäne
● Linguistische Daten und Phänomene erfordern
viele Annotationsarten
Morphologie
3. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
3
Heterogene Domäne
● Linguistische Daten und Phänomene erfordern
viele Annotationsarten
Morphologie
Syntax
4. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
4
Heterogene Domäne
● Linguistische Daten und Phänomene erfordern
viele Annotationsarten
Morphologie
Syntax
Koreferenz
5. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
5
Heterogene Domäne
● Linguistische Daten und Phänomene erfordern
viele Annotationsarten
Morphologie
Syntax
Koreferenz
Rhetorische Strukturen
6. SaltNPepper und das
Formatpluriversum
Gesprochene Daten
Florian Zipser LAUDATIO workshop
6
Heterogene Domäne
● Linguistische Daten und Phänomene erfordern
viele Annotationsarten
Morphologie
Syntax
Koreferenz
Rhetorische Strukturen
7. SaltNPepper und das
Formatpluriversum
Gesprochene Daten
Florian Zipser LAUDATIO workshop
7
Heterogene Domäne
● Linguistische Daten und Phänomene erfordern
viele Annotationsarten
Morphologie
Syntax
Koreferenz
Rhetorische Strukturen
Dialoge
8. SaltNPepper und das
Formatpluriversum
Gesprochene Daten
Florian Zipser LAUDATIO workshop
8
Heterogene Domäne
● Linguistische Daten und Phänomene erfordern
viele Annotationsarten
Morphologie
Syntax
Koreferenz
Rhetorische Strukturen
Dialoge
Unterschiedliche Sprachen
9. SaltNPepper und das
Formatpluriversum
Unterschiedliche Sprachen
Gesprochene Daten
Florian Zipser LAUDATIO workshop
9
Heterogene Domäne
● Linguistische Daten und Phänomene erfordern
viele Annotationsarten
Morphologie
Syntax
Koreferenz
Rhetorische Strukturen
Dialoge
Verschiedene Sprachstufen
10. SaltNPepper und das
Formatpluriversum
Heterogene Domäne
Florian Zipser LAUDATIO workshop
10
● Viele Tools, um Daten zu bearbeiten:
– Manuelle Annotationstools
– semi-automatische Annotationstools
– Automatische Annotationstools
– Suchtools
– Visualisierungstools
11. SaltNPepper und das
Formatpluriversum
Heterogene Domäne
Florian Zipser LAUDATIO workshop
11
● Viele Tools, um Daten zu bearbeiten:
● EXMARaLDA
● Praat
● ELAN
● Tiger search
● ANNIS
● Gate
● @nnotate
● TrED
● Parser (Berkley, MALT, …)
● Arborator
● Toolbox
● Synpathie
● TreeTagger
● Weblicht
● MMAX2
● RST
● UIMA
● WebANNO
● ATOMIC
● UAM
● UIMA (dkpro, ...)
● ...
12. SaltNPepper und das
Formatpluriversum
Heterogene Domäne
GATE XML MMAX2 format
TreeTagger format
Florian Zipser LAUDATIO workshop
12
● Viele verschiedene Formate
TigerXML
PAULA
UAM format
TCF
rs3
PML
CoNLL
PTB format
Negra MAF
TEI
GrAF ANNIS format
EXMARaLDA format
ELAN format
TextGrid
Toolbox format
XLSX
Generic XML
UIMA CAS
13. SaltNPepper und das
Formatpluriversum
Interoperabilität
Florian Zipser LAUDATIO workshop
13
● Problem 1: Interoperabilität
– Viele Tools → gut, Nutzer können wählen
– Aber
● Tools können nur selten interagieren
● Primärdaten müssen mehrmals aufbereitet werden
(Tokenisierung)
14. SaltNPepper und das
Formatpluriversum
Mehrebenenkorpora
Florian Zipser LAUDATIO workshop
14
● Problem 2: Mehrebenenkorpora
– Annotation unterschiedlicher Annotationsarten
(Morphologie, Syntax, Koreferenzen) erfordert
defacto unterschiedliche Korpora
– Aber: wir brauchen ein Korpus, das alles enthält
15. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
15
Nachhaltigkeit
● Problem 3: Nachhaltigkeit
– Einige Tools werden nicht mehr weiterentwickelt
● Formate werden nicht weiter unterstützt
● Was ist mit den Daten???
16. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
16
Nachhaltigkeit
● Nachhaltigkeit der Daten erfordert
Nachhaltigkeit der Speicherung
– Im Web: HTML (W3C)
– Allgemeine Datenbeschreibung: XML (W3C), JSON
– Modellierung: UML/ XMI (OASIS)
– Freitext: PDF bzw. pdf-a
17. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
17
Nachhaltigkeit
● Es gibt ideen zur Standardisierung:
– TEI (TEI consortium)
– GrAF (ISO)
– MAF (ISO)
– SynAF/isoTiger (ISO)
Aber nur wenige Tools arbeiten damit, z.T.
– Sehr komplex
– Unausgereift
– Standards oft jünger als Tool
18. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
18
Anforderungen
● Was wir brauchen:
– Übertragung alter Daten in neue Formate/
Standards (Nachhaltigkeit)
– Austausch der Daten zwischen unterschiedlichen
Tools (Interoperabilität)
– Verschmelzen verschiedener Annotationsarten und
-ebenen (Mehrebenenkorpora)
19. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
19
SaltNPepper
● Nachhaltigkeit:
Format XXX TEI
GrAF
MAF
SynAF
20. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
20
SaltNPepper
● Austausch:
ELAN format EXMARaLDA format
21. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
21
SaltNPepper
● Austausch:
ELAN format EXMARaLDA format
EXMARaLDA format ELAN format
22. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
22
SaltNPepper
● Austausch:
ELAN format EXMARaLDA format
EXMARaLDA format ELAN format
Praat format Praat format
23. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
23
SaltNPepper
● Austausch:
ELAN format EXMARaLDA format
EXMARaLDA format ELAN format
Praat format Praat format
PAULA
TigerXML
ANNIS format
...
PAULA
TigerXML
ANNIS format
...
24. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
24
SaltNPepper
● Austausch:
ELAN format EXMARaLDA format
EXMARaLDA format ELAN format
Praat format Praat format
PAULA
TigerXML
ANNIS format
...
PAULA
TigerXML
ANNIS format
...
n²-n Mappings
● Jedes einzelne muss
implementiert werden
25. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
25
SaltNPepper
● Austausch:
ELAN format EXMARaLDA format
EXMARaLDA format ELAN format
Praat format Praat format
PAULA
TigerXML
ANNIS format
...
PAULA
TigerXML
ANNIS format
...
Gemeinsammes
Modell
26. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
26
SaltNPepper
● Austausch:
ELAN format EXMARaLDA format
EXMARaLDA format ELAN format
Praat format Praat format
PAULA
TigerXML
ANNIS format
...
PAULA
TigerXML
ANNIS format
...
Gemeinsames
Modell
Reduzierung auf 2n
Mappings
27. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
27
Salt
● Anforderungen an Metamodell:
– Tagsetunabhängig
– Beliebige Annotationsebenen
– Unterschiedliche Annotationsarten
– Theorieneutral
28. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
28
Salt
● Salt ist ein Graph?
– Ein Graph G= (V, E) mit:
● Einer Menge an Knoten V
● Einer Menge an Kanten E mit e= (v1 ε V, v2 ε V) ε E.
29. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
29
Salt
● Ein Graph in der Linguistik?
30. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
30
Salt
● Ein Graph in der Linguistik?
31. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
31
Salt
● Ein Graph in der Linguistik?
32. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
32
Salt
● Ist das noch ein Graph?
33. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
33
Salt
● Und das?
34. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
34
Salt
● Oder das?
35. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
35
Salt
● Für Salt ja!
36. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
36
Salt
Primärtext: Die Jugendlichen in Zossen wollen ein Musikcafé.
37. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
37
Salt
Primärtext: DDiiee JJuuggeennddlliicchheenn iinn ZZoosssseenn wwoolllleenn eeiinn MMuussiikkccaafféé..
43. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
43
Salt
● Anforderungen an Metamodell:
Tagsetunabhängig
frei wählbare Attribut-Wert-Paare für Labels
Beliebige Annotationsebenen
unbegrenzte Anzahl an Labels
Unterschiedliche Annotationsarten
alles, was als Graph darstellbar ist
Theorieneutral
Semantikarmut, Salt kennt nur Zeichenketten
44. SaltNPepper und das
Formatpluriversum
Pepper
module
Pepper
module
Pepper
module
Florian Zipser LAUDATIO workshop
44
Pepper
● Pepper
– Converterframework
– Basiert auf Salt
– Nur eine Infrastruktur, die Arbeit machen die
Plugins
Pepper
Salt SSGGrarapphh
SSNNooddee SSRReelalatitoionn
Pepper
module
TTigigeerrXXMMLL
PPAAUULLAA
AANNNNIISS
......
45. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
45
Pepper
● Drei Arten von Modulen:
– Importer: Format A → Salt
– Manipulator: Salt → Salt
– Exporter: Salt → Format B
PPAAUULLAA ANNIS
format
PAULAImporter
Salt
ANNISExporter
46. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
46
Pepper
● Drei Arten von Modulen:
– Importer: Format A → Salt
– Manipulator: Salt → Salt
– Exporter: Salt → Format B
PPAAUULLAA – Kombinierbarkeit
ANNIS
format
PAULAImporter
Salt
ANNISExporter
TTiiggeerrXXMMLL ANNIS
format
TigerImporter
Salt
ANNISExporter
47. SaltNPepper und das
Formatpluriversum
Manipulator
(Sentencer)
PAULAImporter ANNISExporter
Florian Zipser LAUDATIO workshop
47
Pepper
● Manipulation
PPAAUULLAA ANNIS
format
Salt Salt
48. SaltNPepper und das
Formatpluriversum
Manipulator
(Sentencer)
PAULAImporter ANNISExporter
Manipulator
(Sentencer)
TigerImporter ANNISExporter
Florian Zipser LAUDATIO workshop
48
Pepper
● Manipulation
PPAAUULLAA ● Kombinierbarkeit
ANNIS
format
Salt Salt
TTiiggeerrXXMMLL ANNIS
format
Salt Salt
49. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
49
Anforderungen
● Was wir brauchen:
Übertragung alter Daten in neue Formate/
Standards (Nachhaltigkeit)
Austausch der Daten zwischen unterschiedlichen
Tools (Interoperabilität)
Verschmelzen verschiedener Annotationsarten und
-ebenen (Mehrebenenkorpora)
50. SaltNPepper und das
Formatpluriversum
Mehrebenenkorpora
● Mehrebenenkorpora:
verschiedene Annotationsarten gemeinsam durchsuchen und
anzeigen
Florian Zipser LAUDATIO workshop
50
51. SaltNPepper und das
Formatpluriversum
Mehrebenenkorpora
● Problem: es gibt nur wenige
Mehrebenenannotationstools (bspw. WebAnno,
ATOMIC)
Florian Zipser LAUDATIO workshop
51
● Idee: Verschmelzen der unterschiedlichen
Formate (und somit der Ebenen)
TigerXML
RS3
CoNLL
PTB
52. SaltNPepper und das
Formatpluriversum
Mehrebenenkorpora
nneeww nneeww nneeww
1 s1 2 s2 3 s3
Florian Zipser LAUDATIO workshop
52
● Salt reduziert Merging zu Graphmerging
2 t2 1 t 1 3 t3 4 t4 5 t5 7 t7 6 t 6
53. SaltNPepper und das
Formatpluriversum
Mehrebenenkorpora
nneeww nneeww nneeww
1 s1 2 s2 3 s3
Florian Zipser LAUDATIO workshop
53
● Salt reduziert Merging zu Graphmerging
2 t2 1 t 1 3 t3 4 t4 5 t5 7 t7 6 t 6
54. SaltNPepper und das
Formatpluriversum
Mehrebenenkorpora
Salt
Florian Zipser LAUDATIO workshop
ANNISExporter
54
● Merger ist Plugin für Pepper (Manipulator)
TigerImporter
TTiiggeerrXXMMLL
ANNIS
format
Salt
Merger
RSTImporter
rrss33
Salt
55. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
55
Anforderungen
● Was wir brauchen:
Übertragung alter Daten in neue Formate/
Standards (Nachhaltigkeit)
Austausch der Daten zwischen unterschiedlichen
Tools (Interoperabilität)
Verschmelzen verschiedener Annotationsarten und
-ebenen (Mehrebenenkorpora)
56. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
56
Fazit
● SaltNPepper
– Konvertierung von Korpora zwischen Formaten
– Erweiterbarkeit um neue Formate (Plugins)
– Open Source (Apache License 2.0)
– Öffentliche Plattform: GitHub
● https://github.com/korpling/pepper
● https://github.com/korpling/salt
57. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
57
Fazit
● Nachhaltigkeit von Korpora, Formaten und
Software hängt zusammen
● Problem: Projekte sind befristet!
– Oft stirbt Software nach Ende eines Projektes →
Verlust von Geld und Zeit
58. SaltNPepper und das
Formatpluriversum
Florian Zipser LAUDATIO workshop
58
Fazit
● Nachhaltigkeit von Korpora, Formaten und
Software hängt zusammen
● Problem: Projekte sind befristet!
– Oft stirbt Software nach Ende eines Projektes →
Verlust von Geld und Zeit
● Software braucht zum Überleben:
– Aktive Entwicklercommunity
– Open Source
– Öffentliche Plattform
– Gute Dokumentation
59. SaltNPepper und das
Formatpluriversum
Danke für Ihre
Aufmerksamkeit
Tiger
Florian Zipser LAUDATIO workshop
59
PAULA
Pepper
you
your
weapon
the format
monster
TEI
PTB
ANNIS
GrAF
EXMARaLDA
MMAX2
RST
60. SaltNPepper und das
Formatpluriversum
● Diese Folien wurden erstellt unter Verwendung
von:
Florian Zipser LAUDATIO workshop
60
– Yuml http://yuml.me
– Openclipart http://openclipart.org