Von1PageRank1zu1FactRank1
SprachE1und1texGechnologische1Verfahren1zum1AuHau1
der1Wissensbasis1von11xxxxxxxxxxxx1
Georg1Reh...
Gliederung1
• 
• 
• 
• 
• 
• 
• 

Über1die1vionto1GmbH1
eyePlorer.com:1Überblick1und1Demo1
Sprachtechnologie:1Architektur1...
Über1die1vionto1GmbH1
• 
• 
• 
• 

Gegründet1im1Dezember12008.1
Sitz1in1Berlin1Friedrichshain.1
151Mitarbeiter.1
Finanzier...
Gliederung1
• 
• 
• 
• 
• 
• 
• 

Über1die1vionto1GmbH1
eyePlorer.com:+Überblick+und+Demo1
Sprachtechnologie:1Architektur1...
eyePlorer.com:1Einleitung1und1Ziele1
• 
• 
• 
• 
• 
• 

Die1visuelle1Wissensmaschine.1
Interak.ves,1grafisches1Interface.1
...
Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1

6/251
Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1

7/251
eyePlorer.com:1Feedback1
"Eine1der1wohl1aufregendsten1
Suchmaschinen1Entwicklungen1der1
letzten1Jahre1kommt1nicht1aus1dem1...
Gliederung1
• 
• 
• 
• 
• 
• 
• 

Über1die1vionto1GmbH1
eyePlorer.com:1Überblick1und1Demo1
Sprachtechnologie:+Architektur+...
Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1

10/251
Natural1Language1Text1Processing1Pipeline:1Das1Ziel1
•  Vollautoma.sche1Extrak.on1hochwer.ger1und1prägnanter1
Informa.onen...
Natural1Language1Text1Processing1Pipeline1
•  Kernfunk.onen:1
– 
– 
– 
– 
– 
– 

Extrak.on1von1Sätzen1aus1Texten.1
Iden.fiz...
externe1
Ressourcen1

Wissensbasis1
Rollen1

beliefert1

Nutzer1

Kategorien1

Linked1
Data1
Rela.onen1

Seman.c1
Web1

n
...
Bootstrapping1der1Wissensbasis1
•  Seman.scher1Backbone:1Wikipedia1
•  Eigene1Kategorisierung,1die1u.a.1auf1DBpedia1basier...
NLTPP:1Aktueller1Stand1
•  Kernfunk.onen1abgeschlossen:1Satzgrenzensegmen.erer;1
Tokenisierer;1Tagger;1Parser;1UIMA1in1Had...
Gliederung1
• 
• 
• 
• 
• 
• 
• 

Über1die1vionto1GmbH1
eyePlorer.com:1Überblick1und1Demo1
Sprachtechnologie:1Architektur1...
NLTPP:1FactRank1
•  Berechnung1eines1linguis.sch1mo.vierten1Rangs1für1einen1Fakt.1
•  Ein1Fakt1bezieht1sich1immer1auf1ein1...
NLTPP:1Einige1Herausforderungen1
•  Maximierung1des1Recall1(z.B.1PronominaE/Koreferenzauflösung).1
•  Ausschließliche1Annot...
Gliederung1
• 
• 
• 
• 
• 
• 
• 

Über1die1vionto1GmbH1
eyePlorer.com:1Überblick1und1Demo1
Sprachtechnologie:1Architektur1...
NLTPP:1Zukün;ige1Entwicklungen1
• 
• 
• 
• 

Verarbeitung1aktuelleren1Contents1(RSSEFeeds,1tweets1etc.)1
UserEGenerated1Co...
Gliederung1
• 
• 
• 
• 
• 
• 
• 

Über1die1vionto1GmbH1
eyePlorer.com:1Überblick1und1Demo1
Sprachtechnologie:1Architektur1...
Zusammenfassung1
•  eyePlorer.com1besitzt1ein1sehr1komplexes1Backend.1
•  Vollautoma.sch1aufgebaute1Wissensbasis1(seman.sc...
Schlussfolgerungen:1NLPESo;ware1
•  Frei1verfügbare1NLPEKomponenten1und1ERessourcen:1
– 
– 
– 
– 

Wenig1Komponenten1und1R...
Schlussfolgerungen:1Standards1
•  Standards1sind1schön1und1gut,1aber1...1
– 
– 
– 
– 
– 
– 

Aufwand1für1z.B.1Integra.on1v...
Q/A1

Vielen1Dank1für1Ihre1Aufmerksamkeit!1
1
1
1
Fragen1oder1Interesse1an1Koopera.onen?1
georg.rehm@vionto.com1
030140203...
Nächste SlideShare
Wird geladen in …5
×

Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis von eyePlorer.com

338 Aufrufe

Veröffentlicht am

Georg Rehm. Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis von eyePlorer.com. GSCL 2009, Workshop Computerlinguistische Anwendungen und deren Potenzial für die Wirtschaft, Universität Potsdam, Germany, September 2009. September 8, 2009. Talk.

Veröffentlicht in: Technologie
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
338
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
2
Aktionen
Geteilt
0
Downloads
1
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis von eyePlorer.com

  1. 1. Von1PageRank1zu1FactRank1 SprachE1und1texGechnologische1Verfahren1zum1AuHau1 der1Wissensbasis1von11xxxxxxxxxxxx1 Georg1Rehm1 vionto1GmbH1 Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 1/251
  2. 2. Gliederung1 •  •  •  •  •  •  •  Über1die1vionto1GmbH1 eyePlorer.com:1Überblick1und1Demo1 Sprachtechnologie:1Architektur1und1Ansätze1 Konzep.den.fizierung1und1Kategorisierung:1Demo1 FactRank1und1andere1Herausforderungen1 Zukün;ige1Entwicklungen1 Zusammenfassung1und1Schlussfolgerungen1 Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 2/251
  3. 3. Über1die1vionto1GmbH1 •  •  •  •  Gegründet1im1Dezember12008.1 Sitz1in1Berlin1Friedrichshain.1 151Mitarbeiter.1 Finanziert1durch1Business1Angels,1VC1und1Industrieprojekte.1 11 1hGp://www.vionto.com1 1hGp://eyePlorer.com1 Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 3/251
  4. 4. Gliederung1 •  •  •  •  •  •  •  Über1die1vionto1GmbH1 eyePlorer.com:+Überblick+und+Demo1 Sprachtechnologie:1Architektur1und1Ansätze1 Konzep.den.fizierung1und1Kategorisierung:1Demo1 FactRank1und1andere1Herausforderungen1 Zukün;ige1Entwicklungen1 Zusammenfassung1und1Schlussfolgerungen1 Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 4/251
  5. 5. eyePlorer.com:1Einleitung1und1Ziele1 •  •  •  •  •  •  Die1visuelle1Wissensmaschine.1 Interak.ves,1grafisches1Interface.1 Vollautoma.sch1erstelltes1seman.sches1Netzwerk.1 Liefert1verlässliche,1aktuelle1und1kontextsensi.ve1Informa.onen.1 Prägnante1Kurzinforma.onen1(„Fakten )1zu1Konzepten.1 Faktenzentrierter1Ansatz1(vs.1dokumentzentrierter1Ansatz).1 Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 5/251
  6. 6. Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 6/251
  7. 7. Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 7/251
  8. 8. eyePlorer.com:1Feedback1 "Eine1der1wohl1aufregendsten1 Suchmaschinen1Entwicklungen1der1 letzten1Jahre1kommt1nicht1aus1dem1 Silicon1Valley,1sondern1aus1Berlin:1Auch1 eyePlorer.com1ist1ein1Dienst,1der1für1 seman.sche1Verbindungen1sorgt.1Auf1 Basis1der1erfassten1WikipediaEDaten1 visualisiert1eyePlorer1thema.sche1 Querverbindungen.1Was1dabei1heraus1 kommt,1ist1zuweilen1überraschend,1o;1 erhellend1….1So1etwas1für1das1gesamte1 Web1umzusetzen,1staG1'nur'1für1die1 Inhalte1der1Wikipedia,1würde1dem1Traum1 vom1seman.schen1Web1schon1sehr1nahe1 kommen.1Denn1da1geht1die1Reise1hin,1für1 alle1Player1auf1dem1Markt."1 Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 8/251
  9. 9. Gliederung1 •  •  •  •  •  •  •  Über1die1vionto1GmbH1 eyePlorer.com:1Überblick1und1Demo1 Sprachtechnologie:+Architektur+und+Ansätze+ Konzep.den.fizierung1und1Kategorisierung:1Demo1 FactRank1und1andere1Herausforderungen1 Zukün;ige1Entwicklungen1 Zusammenfassung1und1Schlussfolgerungen1 Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 9/251
  10. 10. Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 10/251
  11. 11. Natural1Language1Text1Processing1Pipeline:1Das1Ziel1 •  Vollautoma.sche1Extrak.on1hochwer.ger1und1prägnanter1 Informa.onen1zu1Begriffen1des1Weltwissens1aus1freien1Texten1 (Enzyklopädiear.kel,1Agentur.cker,1tweets,1BlogEAr.kel1etc.).1 •  NLTPP:1Natural1Language1Text1Processing1Pipeline1 Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 11/251
  12. 12. Natural1Language1Text1Processing1Pipeline1 •  Kernfunk.onen:1 –  –  –  –  –  –  Extrak.on1von1Sätzen1aus1Texten.1 Iden.fizierung1bekannter1Konzepte1(in1Bezug1auf1die1Wissensbasis).1 Disambiguierung1mehrdeu.ger1Konzepte1(Jaguar,1Fuchs1etc.).1 Iden.fizierung1von1Sätzen,1die1zwei1bekannte1Konzepte1in1Rela.on1setzen.1 Bewertung1der1Güte1bzw.1Wer.gkeit1von1Texten1und1Fakten1(FactRank).1 Iden.fizierung1neuer1benannter1En.täten1(Personen,1Ereignisse1etc.).11 •  Weitere1Funk.onen1(Auswahl):1 –  Named1En.ty1Recogni.on.1 –  Erkennung1seman.scher1Rela.onen1zwischen1Konzepten.1 Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 12/251
  13. 13. externe1 Ressourcen1 Wissensbasis1 Rollen1 beliefert1 Nutzer1 Kategorien1 Linked1 Data1 Rela.onen1 Seman.c1 Web1 n Linki bewerten,1fügen1hinzu11 und1rekategorisieren1 Fact1Base1 g1 ...1 Document1 Repository1 Seman.c1Net1 Linking1 Iden.fiziert1neue1 Konzepte1bzw.1 Konzeptkandidaten1 Iden.fiziert1 bekannte1 Konzepte1 Natural1 Language1 Text1 Processing1 Pipeline1 (UIMA)1 sammelt1und11 extrahiert1Fakten1 überführt1Texte1und1Ar.kel1in1den1 lokalen1Dokumentbestand1 Named1En.ty1Recogni.on1 Fact1Extrac.on1und1Fact1Ranking1 PartEofESpeech1Tagger1 Seman.sche1Analyse1(u.a.1Word1Sense11 Disambigua.on,1Iden.fizierung1von1Konzepten)1 Iden.fizierung1von1Satzgrenzen1 Parser1 WSDE1 Signaturen1 werden1separat1berechnet1 Preprocessing:1Spracheniden.fizierung1–1Textgüte1–1Textkategorie1–1Textsorte1 Text 1 Text1 Text1 Text1 Text1 Text1 Text1 Con.nuous1Fact1Extrac.on1and1Integra.on1Chain1 Kon.nuierliche1Verarbeitung1und1Aktualisierung1 Text1 Text1 Text1 Text 1
  14. 14. Bootstrapping1der1Wissensbasis1 •  Seman.scher1Backbone:1Wikipedia1 •  Eigene1Kategorisierung,1die1u.a.1auf1DBpedia1basiert1 •  Englisch:1 –  Anzahl1Konzepte:1ca.131Mio.1 –  Anzahl1Fakten:1ca.1601Mio.1 •  Deutsch:1 –  Anzahl1Konzepte:1ca.111Mio.1 –  Anzahl1Fakten:1ca.1201Mio.1 •  Vollständiges1Bootstrapping1benö.gt1auf1einem1HadoopECluster1 mit1361CPUs1(91Nodes)1ca.1301Stunden.1 Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 14/251
  15. 15. NLTPP:1Aktueller1Stand1 •  Kernfunk.onen1abgeschlossen:1Satzgrenzensegmen.erer;1 Tokenisierer;1Tagger;1Parser;1UIMA1in1Hadoop;1Word1Sense1 Disambigua.on;1Demonstra.onsE1und1Evalua.onsEGUIs.1 •  Kernfunk.onen1–1work1in1progress:1 –  Named1En.ty1Recogni.on1(z.B.1Firmennamen)1 –  Word1Sense1Disambigua.on:1Tuning1und1bug1fixing1 –  Fact1Ranking1 Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 15/251
  16. 16. Gliederung1 •  •  •  •  •  •  •  Über1die1vionto1GmbH1 eyePlorer.com:1Überblick1und1Demo1 Sprachtechnologie:1Architektur1und1Ansätze1 Konzep.den.fizierung1und1Kategorisierung:1Demo1 FactRank+und+andere+Herausforderungen+ Zukün;ige1Entwicklungen1 Zusammenfassung1und1Schlussfolgerungen1 Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 16/251
  17. 17. NLTPP:1FactRank1 •  Berechnung1eines1linguis.sch1mo.vierten1Rangs1für1einen1Fakt.1 •  Ein1Fakt1bezieht1sich1immer1auf1ein1ZentralE1und1ein1Objektkonzept.1 •  FactRank:1Ein1u.a.1linguis.sch1mo.viertes1Maß1zur1Bes.mmung1der1 Güte1und1Relevanz1eines1Fakts.1 –  PageRank1bezieht1sich1auf1Dokumente,1FactRank1auf1Sätze.1 –  Features1(Auswahl):1Art1und1Weise1der1Nennung1der1beiden1involvierten1 Konzepte,1Textposi.on,1SyntaxEAnalyse,1Quelle.11 –  Algorithmus1und1FeatureEExtrak.on1werden1derzeit1op.miert.1 + Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 17/251
  18. 18. NLTPP:1Einige1Herausforderungen1 •  Maximierung1des1Recall1(z.B.1PronominaE/Koreferenzauflösung).1 •  Ausschließliche1Annota.on1von1Konzepten,1die1im1jeweiligen1 Kontext1sinns.;end1und1relevant1sind.1 •  Iden.fizierung1neuer1Konzeptkandidaten.1 •  Erkennung1seman.scher1Rela.onen.1 Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 18/251
  19. 19. Gliederung1 •  •  •  •  •  •  •  Über1die1vionto1GmbH1 eyePlorer.com:1Überblick1und1Demo1 Sprachtechnologie:1Architektur1und1Ansätze1 Konzep.den.fizierung1und1Kategorisierung:1Demo1 FactRank1und1andere1Herausforderungen1 ZukünDige+Entwicklungen+ Zusammenfassung1und1Schlussfolgerungen1 Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 19/251
  20. 20. NLTPP:1Zukün;ige1Entwicklungen1 •  •  •  •  Verarbeitung1aktuelleren1Contents1(RSSEFeeds,1tweets1etc.)1 UserEGenerated1Content1(z.B.1eigene1Konzepte1und1Fakten)1 NLTPP1Deutsch1 Breitere1und1robustere1Syntax,1.efere1Seman.k:11 –  Differenzierung1von1Klassen1und1Individuen1 –  Erkennung1seman.scher1Rollen1und1Rela.onen1 •  •  •  •  Bereitstellung1von1APIs1zum1Zugriff1auf1die1Wissensbasis1 Integra.on1von1Linked1Data1 iPhoneE1und1AndroidEClients1 twiGer1bot1(interak.ver1twiGerEDialogpartner)1 Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 20/251
  21. 21. Gliederung1 •  •  •  •  •  •  •  Über1die1vionto1GmbH1 eyePlorer.com:1Überblick1und1Demo1 Sprachtechnologie:1Architektur1und1Ansätze1 Konzep.den.fizierung1und1Kategorisierung:1Demo1 FactRank1und1andere1Herausforderungen1 Zukün;ige1Entwicklungen1 Zusammenfassung+und+Schlussfolgerungen+ Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 21/251
  22. 22. Zusammenfassung1 •  eyePlorer.com1besitzt1ein1sehr1komplexes1Backend.1 •  Vollautoma.sch1aufgebaute1Wissensbasis1(seman.sches1Netz).1 –  Wikipedia1als1seman.scher1Backbone.1 –  Sta.s.sche1und1graphentheore.sche1Methoden.1 –  Computerlinguis.sche1Methoden.1 •  NLTPP:1UIMAEPipeline1mit1verschiedenen1Open1SourceE1sowie1 spezialisierten1Modulen1(z.B.1Features1für1FactRank).1 •  Hohe1Qualitätsansprüche1(Prägnanz1der1Fakten;1Kategorisierung).1 •  Verschiedene1sehr1schwierige1tasks,1z.B.:1 –  Word1Sense1Disambigua.on.1 –  Kontextsensi.ve1Annota.on1relevanter1Konzepte.1 Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 22/251
  23. 23. Schlussfolgerungen:1NLPESo;ware1 •  Frei1verfügbare1NLPEKomponenten1und1ERessourcen:1 –  –  –  –  Wenig1Komponenten1und1Ressourcen1für1das1Deutsche1verfügbar.1 Entry1barrier1ist1sehr1hoch;1kaum1ein1Modul1ist1direkt1einsetzbar.1 Schon1gar1nicht1in1industrieller1Umgebung1und1Infrastruktur1(z.B.1Hadoop).1 Bedarf1für1R&DE1und1Evaluierung1ist1prak.sch1immer1vorhanden.1 •  Entwicklung1eigener1Komponenten:1 –  R&DEAufwand1für1z.B.1einen1Parser1oder1ein1anno.ertes1Korpus1extrem1hoch.1 –  Zeitkon.ngent1und1Budget1für1R&D1allgemein1eher1knapp.1 –  Entwickler1bearbeiten1in1der1Regel1parallel1Industrieprojekte.1 •  Kommerzielle1Werkzeuge:1 –  Üblicherweise1extrem1teuer,1daher1kaum1erschwinglich1für1KMU.1 Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 23/251
  24. 24. Schlussfolgerungen:1Standards1 •  Standards1sind1schön1und1gut,1aber1...1 –  –  –  –  –  –  Aufwand1für1z.B.1Integra.on1von1UIMA1in1Hadoop1ist1sehr1hoch.1 Tatsächlicher1Vorteil1von1UIMA1derzeit1noch1unklar.1 Seman.c1WebETechnologien1sind1sehr1komplex1(zu1komplex?).1 Seman.c1WebETechnologien1sind1sehr1teuer.1 Von1Standards1werden1o;mals1nur15%1der1Funk.onalität1benö.gt.1 Anbieter1entsprechender1So;ware1verlangen1trotzdem1100%1des1Preises.1 •  Diskrepanz1zwischen1Forschung1(„Performanz1spielt1keine1Rolle. )1 und1Industrie1(real1.me1search,1high1performance1compu.ng).1 •  Unsere1Lösung1für1diese1Probleme:1Koopera.onen1aller1Art,1 insbesondere1geförderte1Koopera.onsE1und1Transferprojekte.1 Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 24/251
  25. 25. Q/A1 Vielen1Dank1für1Ihre1Aufmerksamkeit!1 1 1 1 Fragen1oder1Interesse1an1Koopera.onen?1 georg.rehm@vionto.com1 03014020329E151 Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 25/251

×