Open Humanities Awards DM2E track: finderapp WITTfind (Maximilian Hadersbeck – LMU University of Munich) at Enabling humanities research in the Linked Open Web – DM2E final event (11 December 2014, Navacchio, Italy)
DM2E Project meeting Bergen: WP2 RDF Validation, Kai Eckert (University of Ma...
09 pisa finale
1. Centrum für Informations- und
Sprachverarbeitung (CIS)
Dr. Max Hadersbeck, DM2E AWARD, 2014 Pisa, 11.12.2014 # 1
"Enabling humanities research in the Linked Open Web”
DM2E final event, 11.12.2014, Pisa
Open Humanities Awards DM2E track: FinderApp WiTTFind
Wittgensteins Nachlass: Computational linguistics and philosophy
Max Hadersbeck,
Roman Capsamun, Yuliya Kalasouskaya, Stefan Schweter
Centrum für Informations- und Sprachverarbeitung (CIS), LMU, München,
2. Centrum für Informations- und
Sprachverarbeitung (CIS)
Dr. Max Hadersbeck, DM2E AWARD, 2014 Pisa, 11.12.2014 # 2
Ludwig Wittgenstein’s Nachlass
Ludwig Wittgenstein (1889-1951) left 20,000 pages, Wittgenstein's Nachlass
2000: Wittgenstein Archives, University Bergen (WAB):
Nachlass CD-ROM edition, Bergen Electronic Edition (BEE)
2009: WAB and net7 (Pisa) 5000 pages freely available on the web
Wittgenstein Source, including standard search tools
2010: WAB and CIS: “Wittgenstein in Co-Text”:
computational linguistic Wittgenstein’s advanced search tools with web-frontend
2011: first release: FinderApp WiTTFind
Patrick Sahle: “We solve your problem !!??”
3. Centrum für Informations- und
Sprachverarbeitung (CIS)
Dr. Max Hadersbeck, DM2E AWARD, 2014 Pisa, 11.12.2014 # 3
our project connected to DM2E
WiTTFind part of freely available tools, using DM2E project-data
our project for the AWARD
WiTTFind: fine-grained computational linguistic perspectives on editions
open source, XML-Input Data, tools and knowledge configurable
not like statistical indexing search machines
like google books, Open Library project, apache Solr
4. Centrum für Informations- und
Sprachverarbeitung (CIS)
Dr. Max Hadersbeck, DM2E AWARD, 2014 Pisa, 11.12.2014 # 4
computational perspective of WiTTFind
digital full-form lexicon
with 46000 entries
POS-Tagging,
rule based access,
local grammars,
in sentence frames
Wittenstein: Tractatus logico philosophicus [22, 3.3]:
„Nur der Satz hat Sinn; nur im Zusammenhang des Satzes hat ein Name
Bedeutung“.
5. Centrum für Informations- und
Sprachverarbeitung (CIS)
Dr. Max Hadersbeck, DM2E AWARD, 2014 Pisa, 11.12.2014 # 5
aims for our AWARD-project
1. extending data to 5000 pages of Wittgenstein’s Nachlass
2. finder openly available to other digital humanity projects
defining APIs, a XML-TEI-P5 tagset
3. OCR tools for facsimile-integration
4. facsimile reader for multidoc
5. tools to convert and insert edition-documents .
6. interoperable distributed application (Linux, Macos, Windows)
7. browser and devices independence
8. software under git-server control
6. Centrum für Informations- und
Sprachverarbeitung (CIS)
Dr. Max Hadersbeck, DM2E AWARD, 2014 Pisa, 11.12.2014 # 6
FinderApp before the AWARD
http://wittfind.cis.uni-muenchen.de
Publications:
35. Wittgenstein Symposium, Kirchberg am Wechsel, Austria, 5.-11. 08.2012,
1. Digital Humanities im deutschsprachigen Raum, Passau, 25.-28.03.2014
DATeCH 2014 – Digital Access to Textual Cultural Heritage, Madrid, 19.- 20.5.2014
7. Centrum für Informations- und
Sprachverarbeitung (CIS)
Dr. Max Hadersbeck, DM2E AWARD, 2014 Pisa, 11.12.2014 # 7
FinderApp for the AWARD (beta version)
see http://wittfind15.cis.uni-muenchen.de
8. Centrum für Informations- und
Sprachverarbeitung (CIS)
September work for our AWARD
Team: Roman Capsamun, Yuliya Kalasouskaya and Stefan Schweter
Extending Nachlass-data for FinderApp WiTTFind
Visiting and meeting at WAB
HD-scans from Cambridge/WAB
Extending syntactic disambiguation
Nachlass-Data, POS
“ABBYY” or “Tesseract” for OCR
Dr. Max Hadersbeck, DM2E AWARD, 2014 Pisa, 11.12.2014 # 8
9. Centrum für Informations- und
Sprachverarbeitung (CIS)
October work for our AWARD
Open-source software development tools: gitlab,
test driven development (TDD),
continuous integration (CI),
see : https://gitlab.cis.uni-muenchen.de
Git-platform: Wittgenstein Advanced Search Tools (WAST)
Feedback-app for errors and maintenance
Interoperable software
virtualization as docker-container, (see www.docker.com).
Dr. Max Hadersbeck, DM2E AWARD, 2014 Pisa, 11.12.2014 # 9
10. Centrum für Informations- und
Sprachverarbeitung (CIS)
November work for our AWARD
WEB-Design: University WEB-CI and “Nietzsche-Source”
Redesign of WiTTFind WEB-frontend for “multidoc”
Facsimile-reader for “multidoc”
Browser and device independence: bootstrap, see: http://getbootstrap.com
Video about git-activity,
see: http://wast.cis.uni-muenchen.de/tutorial/gitlab-log/
Wrote a paper: 2. Digital Humanities im deutschsprachigen Raum,
Graz, 23.-27.2.2015
Dr. Max Hadersbeck, DM2E AWARD, 2014 Pisa, 11.12.2014 # 10
11. Centrum für Informations- und
Sprachverarbeitung (CIS)
November work for our AWARD
Starting OCR tesseract facsimile highlighting
typescript
(rather good)
manuscripts
(very bad)
Developing a multiuser-semiautomatic WEB-based correction-tool for OCR-Errors.
Dr. Max Hadersbeck, DM2E AWARD, 2014 Pisa, 11.12.2014 # 11
12. Centrum für Informations- und
Sprachverarbeitung (CIS)
December work for our AWARD
WiTTFind AWARD beta version, see: http://wittfind15.cis.uni-muenchen.de
Dr. Max Hadersbeck, DM2E AWARD, 2014 Pisa, 11.12.2014 # 12
13. Centrum für Informations- und
Sprachverarbeitung (CIS)
FinderApp WiTTFind components
Edition:
xml-TEI-P5 texts
<s n="Ts-213,i-r[7]_1" ana="facs:Ts-213,i-r abnr:7 satznr:15">
6)Man sagt: ein Wort verstehen heißt, wissen, wie es gebraucht wird.</s>
facsimile HD-quality
Wittgenstein Advanced Search Tools (WAST) - tools:
fullform lexikon WiTTLex, (ca. 46000 entries)
disambiguation:
PartOfSpeech Tagging, treetagger, local grammars
semantic search:
lexical entries with disambiguations
see: http://wittfind.cis.uni-muenchen.de (Hilfe-Seiten, Semantik Finding)
Dr. Max Hadersbeck, DM2E AWARD, 2014 Pisa, 11.12.2014 # 13
14. Centrum für Informations- und
Sprachverarbeitung (CIS)
git Server for WAST - tools
see: https://gitlab.cis.uni-muenchen.de
important git branches are:
wf: rulebased finder
multithreaded C++ programs
wittfind-web:
WEB-Page, bootstrap
wittreader-coordinates-ocr
wab2cis: facsimile, (WAB)
xml programs, POS tagger
wast-feedback
erkenntnis:
lexicon, syntax, semantic
Dr. Max Hadersbeck, DM2E AWARD, 2014 Pisa, 11.12.2014 # 14
15. Centrum für Informations- und
Sprachverarbeitung (CIS)
next developments
Video: WiTTFind tutorial (German, English)
Hit scoring
HD-facsimile integration
More disambiguations
More semantic (nouns, time, locations)
Secret-writings of Wittgenstein
Quadro- facsimile-reader
Scope search (indexing)
Word misspelling (Levenshtein)
Lemmatized autosuggestion
Symmetric index and autosuggestions SIS
Daniel Bruder, (see: http://sis.cis.lmu.de)
Dr. Max Hadersbeck, DM2E AWARD, 2014 Pisa, 11.12.2014 # 15
16. Centrum für Informations- und
Sprachverarbeitung (CIS)
summary: WiTTFind
http://wittfind15.cis.uni-muenchen.de
multidoc DM2E texts
simple sentence separated TEI-5 XML (CISWAB),
electronical full-form lexcion (WiTTLex),
word/phrase input and syntactically/semantically disambiguation with POS
and local grammars,
Highlighting of hits and facsimile display and –reader,
git- based program development,
browser independent (bootstrap),
interoperable with virtualization (docker)
Dr. Max Hadersbeck, DM2E AWARD, 2014 Pisa, 11.12.2014 # 16
17. Centrum für Informations- und
Sprachverarbeitung (CIS)
Ludwig Wittgenstein states:
"Wovon man nicht sprechen kann, darüber muss man schweigen." –
Satz 7, Tractatus logico-philosophicus
but
The computational linguists can help to find the most hidden remarks in
the Edition.
Vielen Dank für Ihre Aufmerksamkeit – Molti grazie per gentile attentione
Thank you for your attention
Dr. Max Hadersbeck, DM2E AWARD, 2014 Pisa, 11.12.2014 # 17
18. Centrum für Informations- und
Sprachverarbeitung (CIS)
Zusammenarbeit Computerlinguistik und Philosophie
‚methodischer Brückenschlag oder "feindliche Übernahme"?‘
Philosoph Prof. Hrachovec(Wien):
“Ein neues Rastermikroskop für den Steinbruch”
FinderApp
Ludwig Wittgenstein im Ms111,178:
"Wenn ich etwas suche, so ist es wesentlich, daß ich das Finden
ebenso ausführlich muß beschreiben können (ob es (je so)
eintritt oder nicht) ehe der Gegenstand gefunden ist.“
Dr. Max Hadersbeck, DM2E AWARD, 2014 Pisa, 11.12.2014 # 18