A Multilingual Semantic Wiki based on Attempto Controlled English and Grammat...
Automatische Übersetzung in einem multilingualen, semantischen Wiki
1. ¨
Automatische Ubersetzung in einem
multilingualen, semantischen Wiki
Tobias Kuhn
Professur f¨r Soziologie, insbesondere Modellierung und Simulation, ETH Z¨rich
u
u
Institut f¨r Computerlinguistik, Universit¨t Z¨rich
u
a u
27. November 2013
2. Man stelle sich vor, ...
... dass Wikipedia die Konsistenz des enthaltenen
Wissens uberpr¨fen und Fragen dazu beantworten
u
¨
k¨nnte, und
o
... dass der gesamte Inhalt sofort in allen Sprachen
verf¨gbar w¨re!
u
a
Tobias Kuhn, ETH Zurich
¨
Automatische Ubersetzung in einem multilingualen, semantischen Wiki
2 / 15
3. • AceWiki ist ein semantisches Wiki
• Artikel sind in einer kontrollierten nat¨rlichen Sprache
u
geschrieben: Attempto Controlled English (ACE)
• Im Hintergrund werden die S¨tze in die Semantic-Web-Sprache
a
OWL ubersetzt
¨
• Der eingebaute OWL-Reasoner kann Fragen beantworten und
Widerspr¨che entdecken
u
• Spezieller Editor f¨r das Schreiben on ACE-S¨tzen
u
a
• Wurde um Multilingualit¨t erweitert
a
Tobias Kuhn, ETH Zurich
¨
Automatische Ubersetzung in einem multilingualen, semantischen Wiki
3 / 15
5. Konsistenzpr¨fung
u
AceWiki uberpr¨ft jeden neuen Satz auf Konsistenz:
u
¨
Tobias Kuhn, ETH Zurich
¨
Automatische Ubersetzung in einem multilingualen, semantischen Wiki
5 / 15
6. Beantwortung von Fragen
AceWiki kann auch Fragen beantworten:
Tobias Kuhn, ETH Zurich
¨
Automatische Ubersetzung in einem multilingualen, semantischen Wiki
6 / 15
7. Grammatical Framework (GF)
GF ist ein Framework f¨r die Erstellung multilingualer Grammatiken:
u
• Regelbasiert
• Funktionale Programmiersprache (basierend auf Haskell)
optimiert f¨r die Beschreibung nat¨rlicher Sprachen
u
u
• “Resource Grammar Library”, die allgemeine morphologische
und syntaktische Strukturen implementiert
• “Mildly context-sensitive”
¨
• Bidirectionale Ubersetzungen: konkrete Sprache ⇔ Abstrakte
Syntaxb¨ume
a
Tobias Kuhn, ETH Zurich
¨
Automatische Ubersetzung in einem multilingualen, semantischen Wiki
7 / 15
8. ¨
GF-Grammatiken und -Ubersetzungen
GF-Grammatiken bestehen aus:
• Einer sprachunabh¨ngigen abstrakten Syntax
a
• Mehreren konkreten Sprachdefinitionen (“concrete syntax”), die
W¨rter, Wortstellung, etc. definieren durch die Implementierung
o
der gegebenen abstrakten Kategorien und Funktionen
Beispiel
border : Country -> Country -> Relation
Englisch: border x y = x!Nom + "borders" + y!Acc
Estnisch: border x y = x!Gen + "naaber on" + y!Nom
¨
GF-Ubersetzungen bestehen aus:
• Zun¨chst wird ein Text in der Originalsprache in einen Baum
a
(oder mehrere B¨ume) in der abstrakten Syntax abgebildet
a
• Dann werden diese B¨ume als Texte in der Zielsprache
a
“linearisiert”
Tobias Kuhn, ETH Zurich
¨
Automatische Ubersetzung in einem multilingualen, semantischen Wiki
8 / 15
9. GF Resource Grammar Library (RGL)
• Morphologie und Syntax f¨r ∼30 Sprachen mit einer
u
sprachunabh¨ngigen API
a
• Entwickler brauchen kein detailliertes Wissen der Sprachen, die
sie in ihren Anwendungen verwenden wollen
Tobias Kuhn, ETH Zurich
¨
Automatische Ubersetzung in einem multilingualen, semantischen Wiki
9 / 15
10. ACE-in-GF
• Kontrollierte Versionen mehrerer nat¨rlicher Sprachen, die auf
u
ACE (und aufeinander) abgebildet werden k¨nnen
o
• Dadurch k¨nnen sie in die verschiedenen formalen Sprachen
o
ubersetzt werden, die ACE schon unterst¨tzt
u
¨
Tobias Kuhn, ETH Zurich
¨
Automatische Ubersetzung in einem multilingualen, semantischen Wiki
10 / 15
12. Die Zukunft...?
K¨nnen wir eine wirklich multilinguale Wikipedia erstellen?
o
• Inhalt in einer semantischen Repr¨sentation
a
• Verbalisierung in verschiedenen Sprachen
• Der ganze Inhalt w¨re sofort in allen Sprachen verf¨gbar (wenn
a
u
das ben¨tigte Vokabular schon definiert ist)
o
• W¨rde die momentane Englisch-Dominanz brechen und dem
u
Ausschliessen von Benutzern weniger verbreiteten oder
unterrepr¨sentierter Sprachen ein Ende setzen
a
• W¨rde auch zur Vision des Semantic Webs beitragen.
u
Andere ¨hnliche Ans¨tze:
a
a
• http://www.wikidata.org
• http://meta.wikimedia.org/wiki/A_proposal_towards_a_
multilingual_Wikipedia
Tobias Kuhn, ETH Zurich
¨
Automatische Ubersetzung in einem multilingualen, semantischen Wiki
12 / 15
13. Publikationen
Die folgenden Publikationen enthalten detailliertere Infos zu unserem
Ansatz:
Kaarel Kaljurand and Tobias Kuhn. A Multilingual Semantic Wiki
Based on Attempto Controlled English and Grammatical Framework.
In Proceedings of the 10th Extended Semantic Web Conference
(ESWC). 2013.
http://purl.org/tkuhn/eswc2013acewikigf
Kaarel Kaljurand, Tobias Kuhn, and Laura Canedo. Collaborative
multilingual knowledge management based on controlled natural
language. Under review.
http://www.semantic-web-journal.net/system/files/swj524.pdf
Tobias Kuhn, ETH Zurich
¨
Automatische Ubersetzung in einem multilingualen, semantischen Wiki
13 / 15
14. Vielen Dank f¨r die Aufmerksamkeit!
u
Fragen?
Tobias Kuhn, ETH Zurich
¨
Automatische Ubersetzung in einem multilingualen, semantischen Wiki
14 / 15
15. Links
ACE parser (APE) Code: https://github.com/Attempto/APE
ACE-in-GF Code: http://github.com/Attempto/ACE-in-GF
AceWiki und AceWikiGF
• Code: http://github.com/AceWiki/AceWiki
• Demos (non-GF): http://attempto.ifi.uzh.ch/acewiki/
• Demos (GF): http://attempto.ifi.uzh.ch/acewiki-gf/
MOLTO Projekt Web-Seite: http://www.molto-project.eu
Attempto Web-Seite: http://attempto.ifi.uzh.ch
GF: http://www.grammaticalframework.org
Tobias Kuhn, ETH Zurich
¨
Automatische Ubersetzung in einem multilingualen, semantischen Wiki
15 / 15