SlideShare ist ein Scribd-Unternehmen logo
Von1PageRank1zu1FactRank1
SprachE1und1texGechnologische1Verfahren1zum1AuHau1
der1Wissensbasis1von11xxxxxxxxxxxx1
Georg1Rehm1
vionto1GmbH1

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1

1/251
Gliederung1
• 
• 
• 
• 
• 
• 
• 

Über1die1vionto1GmbH1
eyePlorer.com:1Überblick1und1Demo1
Sprachtechnologie:1Architektur1und1Ansätze1
Konzep.den.fizierung1und1Kategorisierung:1Demo1
FactRank1und1andere1Herausforderungen1
Zukün;ige1Entwicklungen1
Zusammenfassung1und1Schlussfolgerungen1

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1

2/251
Über1die1vionto1GmbH1
• 
• 
• 
• 

Gegründet1im1Dezember12008.1
Sitz1in1Berlin1Friedrichshain.1
151Mitarbeiter.1
Finanziert1durch1Business1Angels,1VC1und1Industrieprojekte.1
11
1hGp://www.vionto.com1
1hGp://eyePlorer.com1

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1

3/251
Gliederung1
• 
• 
• 
• 
• 
• 
• 

Über1die1vionto1GmbH1
eyePlorer.com:+Überblick+und+Demo1
Sprachtechnologie:1Architektur1und1Ansätze1
Konzep.den.fizierung1und1Kategorisierung:1Demo1
FactRank1und1andere1Herausforderungen1
Zukün;ige1Entwicklungen1
Zusammenfassung1und1Schlussfolgerungen1

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1

4/251
eyePlorer.com:1Einleitung1und1Ziele1
• 
• 
• 
• 
• 
• 

Die1visuelle1Wissensmaschine.1
Interak.ves,1grafisches1Interface.1
Vollautoma.sch1erstelltes1seman.sches1Netzwerk.1
Liefert1verlässliche,1aktuelle1und1kontextsensi.ve1Informa.onen.1
Prägnante1Kurzinforma.onen1(„Fakten )1zu1Konzepten.1
Faktenzentrierter1Ansatz1(vs.1dokumentzentrierter1Ansatz).1

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1

5/251
Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1

6/251
Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1

7/251
eyePlorer.com:1Feedback1
"Eine1der1wohl1aufregendsten1
Suchmaschinen1Entwicklungen1der1
letzten1Jahre1kommt1nicht1aus1dem1
Silicon1Valley,1sondern1aus1Berlin:1Auch1
eyePlorer.com1ist1ein1Dienst,1der1für1
seman.sche1Verbindungen1sorgt.1Auf1
Basis1der1erfassten1WikipediaEDaten1
visualisiert1eyePlorer1thema.sche1
Querverbindungen.1Was1dabei1heraus1
kommt,1ist1zuweilen1überraschend,1o;1
erhellend1….1So1etwas1für1das1gesamte1
Web1umzusetzen,1staG1'nur'1für1die1
Inhalte1der1Wikipedia,1würde1dem1Traum1
vom1seman.schen1Web1schon1sehr1nahe1
kommen.1Denn1da1geht1die1Reise1hin,1für1
alle1Player1auf1dem1Markt."1

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1

8/251
Gliederung1
• 
• 
• 
• 
• 
• 
• 

Über1die1vionto1GmbH1
eyePlorer.com:1Überblick1und1Demo1
Sprachtechnologie:+Architektur+und+Ansätze+
Konzep.den.fizierung1und1Kategorisierung:1Demo1
FactRank1und1andere1Herausforderungen1
Zukün;ige1Entwicklungen1
Zusammenfassung1und1Schlussfolgerungen1

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1

9/251
Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1

10/251
Natural1Language1Text1Processing1Pipeline:1Das1Ziel1
•  Vollautoma.sche1Extrak.on1hochwer.ger1und1prägnanter1
Informa.onen1zu1Begriffen1des1Weltwissens1aus1freien1Texten1
(Enzyklopädiear.kel,1Agentur.cker,1tweets,1BlogEAr.kel1etc.).1
•  NLTPP:1Natural1Language1Text1Processing1Pipeline1

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1

11/251
Natural1Language1Text1Processing1Pipeline1
•  Kernfunk.onen:1
– 
– 
– 
– 
– 
– 

Extrak.on1von1Sätzen1aus1Texten.1
Iden.fizierung1bekannter1Konzepte1(in1Bezug1auf1die1Wissensbasis).1
Disambiguierung1mehrdeu.ger1Konzepte1(Jaguar,1Fuchs1etc.).1
Iden.fizierung1von1Sätzen,1die1zwei1bekannte1Konzepte1in1Rela.on1setzen.1
Bewertung1der1Güte1bzw.1Wer.gkeit1von1Texten1und1Fakten1(FactRank).1
Iden.fizierung1neuer1benannter1En.täten1(Personen,1Ereignisse1etc.).11

•  Weitere1Funk.onen1(Auswahl):1
–  Named1En.ty1Recogni.on.1
–  Erkennung1seman.scher1Rela.onen1zwischen1Konzepten.1

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1

12/251
externe1
Ressourcen1

Wissensbasis1
Rollen1

beliefert1

Nutzer1

Kategorien1

Linked1
Data1
Rela.onen1

Seman.c1
Web1

n
Linki

bewerten,1fügen1hinzu11
und1rekategorisieren1

Fact1Base1

g1

...1

Document1
Repository1

Seman.c1Net1
Linking1

Iden.fiziert1neue1
Konzepte1bzw.1
Konzeptkandidaten1

Iden.fiziert1
bekannte1
Konzepte1
Natural1
Language1
Text1
Processing1
Pipeline1
(UIMA)1

sammelt1und11
extrahiert1Fakten1

überführt1Texte1und1Ar.kel1in1den1
lokalen1Dokumentbestand1

Named1En.ty1Recogni.on1

Fact1Extrac.on1und1Fact1Ranking1

PartEofESpeech1Tagger1

Seman.sche1Analyse1(u.a.1Word1Sense11
Disambigua.on,1Iden.fizierung1von1Konzepten)1

Iden.fizierung1von1Satzgrenzen1

Parser1

WSDE1
Signaturen1
werden1separat1berechnet1

Preprocessing:1Spracheniden.fizierung1–1Textgüte1–1Textkategorie1–1Textsorte1

Text

1

Text1

Text1

Text1

Text1

Text1

Text1

Con.nuous1Fact1Extrac.on1and1Integra.on1Chain1
Kon.nuierliche1Verarbeitung1und1Aktualisierung1

Text1

Text1

Text1

Text

1
Bootstrapping1der1Wissensbasis1
•  Seman.scher1Backbone:1Wikipedia1
•  Eigene1Kategorisierung,1die1u.a.1auf1DBpedia1basiert1
•  Englisch:1
–  Anzahl1Konzepte:1ca.131Mio.1
–  Anzahl1Fakten:1ca.1601Mio.1

•  Deutsch:1
–  Anzahl1Konzepte:1ca.111Mio.1
–  Anzahl1Fakten:1ca.1201Mio.1

•  Vollständiges1Bootstrapping1benö.gt1auf1einem1HadoopECluster1
mit1361CPUs1(91Nodes)1ca.1301Stunden.1
Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1

14/251
NLTPP:1Aktueller1Stand1
•  Kernfunk.onen1abgeschlossen:1Satzgrenzensegmen.erer;1
Tokenisierer;1Tagger;1Parser;1UIMA1in1Hadoop;1Word1Sense1
Disambigua.on;1Demonstra.onsE1und1Evalua.onsEGUIs.1
•  Kernfunk.onen1–1work1in1progress:1
–  Named1En.ty1Recogni.on1(z.B.1Firmennamen)1
–  Word1Sense1Disambigua.on:1Tuning1und1bug1fixing1
–  Fact1Ranking1

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1

15/251
Gliederung1
• 
• 
• 
• 
• 
• 
• 

Über1die1vionto1GmbH1
eyePlorer.com:1Überblick1und1Demo1
Sprachtechnologie:1Architektur1und1Ansätze1
Konzep.den.fizierung1und1Kategorisierung:1Demo1
FactRank+und+andere+Herausforderungen+
Zukün;ige1Entwicklungen1
Zusammenfassung1und1Schlussfolgerungen1

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1

16/251
NLTPP:1FactRank1
•  Berechnung1eines1linguis.sch1mo.vierten1Rangs1für1einen1Fakt.1
•  Ein1Fakt1bezieht1sich1immer1auf1ein1ZentralE1und1ein1Objektkonzept.1
•  FactRank:1Ein1u.a.1linguis.sch1mo.viertes1Maß1zur1Bes.mmung1der1
Güte1und1Relevanz1eines1Fakts.1
–  PageRank1bezieht1sich1auf1Dokumente,1FactRank1auf1Sätze.1
–  Features1(Auswahl):1Art1und1Weise1der1Nennung1der1beiden1involvierten1
Konzepte,1Textposi.on,1SyntaxEAnalyse,1Quelle.11
–  Algorithmus1und1FeatureEExtrak.on1werden1derzeit1op.miert.1

+

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1

17/251
NLTPP:1Einige1Herausforderungen1
•  Maximierung1des1Recall1(z.B.1PronominaE/Koreferenzauflösung).1
•  Ausschließliche1Annota.on1von1Konzepten,1die1im1jeweiligen1
Kontext1sinns.;end1und1relevant1sind.1
•  Iden.fizierung1neuer1Konzeptkandidaten.1
•  Erkennung1seman.scher1Rela.onen.1

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1

18/251
Gliederung1
• 
• 
• 
• 
• 
• 
• 

Über1die1vionto1GmbH1
eyePlorer.com:1Überblick1und1Demo1
Sprachtechnologie:1Architektur1und1Ansätze1
Konzep.den.fizierung1und1Kategorisierung:1Demo1
FactRank1und1andere1Herausforderungen1
ZukünDige+Entwicklungen+
Zusammenfassung1und1Schlussfolgerungen1

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1

19/251
NLTPP:1Zukün;ige1Entwicklungen1
• 
• 
• 
• 

Verarbeitung1aktuelleren1Contents1(RSSEFeeds,1tweets1etc.)1
UserEGenerated1Content1(z.B.1eigene1Konzepte1und1Fakten)1
NLTPP1Deutsch1
Breitere1und1robustere1Syntax,1.efere1Seman.k:11
–  Differenzierung1von1Klassen1und1Individuen1
–  Erkennung1seman.scher1Rollen1und1Rela.onen1

• 
• 
• 
• 

Bereitstellung1von1APIs1zum1Zugriff1auf1die1Wissensbasis1
Integra.on1von1Linked1Data1
iPhoneE1und1AndroidEClients1
twiGer1bot1(interak.ver1twiGerEDialogpartner)1

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1

20/251
Gliederung1
• 
• 
• 
• 
• 
• 
• 

Über1die1vionto1GmbH1
eyePlorer.com:1Überblick1und1Demo1
Sprachtechnologie:1Architektur1und1Ansätze1
Konzep.den.fizierung1und1Kategorisierung:1Demo1
FactRank1und1andere1Herausforderungen1
Zukün;ige1Entwicklungen1
Zusammenfassung+und+Schlussfolgerungen+

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1

21/251
Zusammenfassung1
•  eyePlorer.com1besitzt1ein1sehr1komplexes1Backend.1
•  Vollautoma.sch1aufgebaute1Wissensbasis1(seman.sches1Netz).1
–  Wikipedia1als1seman.scher1Backbone.1
–  Sta.s.sche1und1graphentheore.sche1Methoden.1
–  Computerlinguis.sche1Methoden.1

•  NLTPP:1UIMAEPipeline1mit1verschiedenen1Open1SourceE1sowie1
spezialisierten1Modulen1(z.B.1Features1für1FactRank).1
•  Hohe1Qualitätsansprüche1(Prägnanz1der1Fakten;1Kategorisierung).1
•  Verschiedene1sehr1schwierige1tasks,1z.B.:1
–  Word1Sense1Disambigua.on.1
–  Kontextsensi.ve1Annota.on1relevanter1Konzepte.1

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1

22/251
Schlussfolgerungen:1NLPESo;ware1
•  Frei1verfügbare1NLPEKomponenten1und1ERessourcen:1
– 
– 
– 
– 

Wenig1Komponenten1und1Ressourcen1für1das1Deutsche1verfügbar.1
Entry1barrier1ist1sehr1hoch;1kaum1ein1Modul1ist1direkt1einsetzbar.1
Schon1gar1nicht1in1industrieller1Umgebung1und1Infrastruktur1(z.B.1Hadoop).1
Bedarf1für1R&DE1und1Evaluierung1ist1prak.sch1immer1vorhanden.1

•  Entwicklung1eigener1Komponenten:1
–  R&DEAufwand1für1z.B.1einen1Parser1oder1ein1anno.ertes1Korpus1extrem1hoch.1
–  Zeitkon.ngent1und1Budget1für1R&D1allgemein1eher1knapp.1
–  Entwickler1bearbeiten1in1der1Regel1parallel1Industrieprojekte.1

•  Kommerzielle1Werkzeuge:1
–  Üblicherweise1extrem1teuer,1daher1kaum1erschwinglich1für1KMU.1
Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1

23/251
Schlussfolgerungen:1Standards1
•  Standards1sind1schön1und1gut,1aber1...1
– 
– 
– 
– 
– 
– 

Aufwand1für1z.B.1Integra.on1von1UIMA1in1Hadoop1ist1sehr1hoch.1
Tatsächlicher1Vorteil1von1UIMA1derzeit1noch1unklar.1
Seman.c1WebETechnologien1sind1sehr1komplex1(zu1komplex?).1
Seman.c1WebETechnologien1sind1sehr1teuer.1
Von1Standards1werden1o;mals1nur15%1der1Funk.onalität1benö.gt.1
Anbieter1entsprechender1So;ware1verlangen1trotzdem1100%1des1Preises.1

•  Diskrepanz1zwischen1Forschung1(„Performanz1spielt1keine1Rolle. )1
und1Industrie1(real1.me1search,1high1performance1compu.ng).1
•  Unsere1Lösung1für1diese1Probleme:1Koopera.onen1aller1Art,1
insbesondere1geförderte1Koopera.onsE1und1Transferprojekte.1
Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1

24/251
Q/A1

Vielen1Dank1für1Ihre1Aufmerksamkeit!1
1
1
1
Fragen1oder1Interesse1an1Koopera.onen?1
georg.rehm@vionto.com1
03014020329E151

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1

25/251

Weitere ähnliche Inhalte

Mehr von Georg Rehm

Mehr von Georg Rehm (20)

QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
 
Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...
 
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
 
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
 
Künstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und ÜbersetzenKünstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und Übersetzen
 
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
 
European Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and FutureEuropean Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and Future
 
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and InterpretationTowards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
 
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickKI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
 
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
 
AI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual EuropeAI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual Europe
 
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KI
 
Artificial Intelligence for the Film Industry
Artificial Intelligence for the Film IndustryArtificial Intelligence for the Film Industry
Artificial Intelligence for the Film Industry
 
KI für die Kundenkommunikation
KI für die KundenkommunikationKI für die Kundenkommunikation
KI für die Kundenkommunikation
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
 
EPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3CEPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3C
 
Human Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual EuropeHuman Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual Europe
 
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
 
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
 

Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis von eyePlorer.com