Wissenserschließung
     und –Modellierung:
  Ontologie vs. Volltextsuche
am Beispiel des Projektes EnArgus
            Thomas Koch
          OrbiTeam Software
           GmbH & Co. KG
   KnowledgeCamp 2012, Karlsruhe
Kurzvorstellung: EnArgus-Projekt
• Ziel: Entwicklung und Erprobung eines zentralen
  Informationssystems für Energieforschungs-
  vorhaben aus dem Bereich der Förderung durch
  Bund und Länder
• Unterschiedliche Zielgruppen
  – Die interessierte Öffentlichkeit
     • Überblick über Forschungsprojekte
  – Die Geldgeber (Ministerien, Projektträger)
     • Was wird/wurde gefördert (inhaltliche Fragen)
     • Forschungstrends, Experten, Verteilung Fördermittel etc.
Ausgangssituation
Diverse Problemstellungen und Anforderungen
• Projektdaten sind auf eine Vielzahl nicht
  kompatibler Datenbanken verstreut
• Datenbanken sind eher betriebswirtschaftlich
  motiviert und zur fachlichen Auswertung wenig
  geeignet
• Bedarf nach Auswertungswerkzeugen und
  erweiterten Recherchemöglichkeiten
• Vorhabenbeschreibungen sind oftmals sehr
  fachspezifisch – Wissen über Fachgebiet für
  Recherche erforderlich
Idee
Verbesserte Suche durch
Wissenserschließung
• Wiki-texte                              Fachexperte
    – Werden von Fachexperten
      gemeinsam verfasst
• Informationsextraktion
    – Aufbau der Ontologie
      durch Textanalyse
• Ontologie
    – Dient der formalen und expliziten
      Repräsentation von Wissen
• Suchanfrage
    – Wird durch verwandte Begriffe aus
      Ontologie angereichert
• Optimierte Suchergebnisse
     zufriedene Benutzer 


                                            Anwender
Vorgehen
• Zusammenführen von Daten aus versch. Quellen
   – Projektdaten aus PROFI (administrative Daten)
   – Projektdokumente mit Inhalt (z.B. Berichte)
   – Inhaltliche Erschließung über Suchmaschine
      • Inhaltssuche (Volltext) und Metadatensuche
• Unterstützung der Recherche durch Fachontologie
   – Fachontologie wird mit Hilfe der Energieexperten erstellt
   – Energieexperten formulieren Sachzusammenhänge im Wiki
   – Ontologieexperten realisieren Erfassung des Wikis durch
     Methoden der Sprachanalyse und Wissensextraktion
   – IT-Experten implementieren das Basis-System mit
     Suchfunktionen, die auf die Ontologie zurückgreifen
EnArgus
Systemarchitektur



Auswertung &     Suchanfragen                                       Energie-
Visualisierung   & -ergebnisse   Kooperations-    Ontologie-      forschungs
                                  Unterstützg.     Editor            -Wiki
   Recherche-Cockpit


                   BSCW Core                     Ontologie Core   Wiki-Seiten



  Index          EnArgus-DB      Dokumente        Ontologie-DB
Fakten: EnArgus®
• Nationales Forschungsvorhaben
  – Partner: aus Energieforschung und Informatik
     •   Fraunhofer FIT, FKIE, UMSICHT und ISI
     •   Forschungszentrum Jülich
     •   Ruhr-Universität Bochum
     •   OrbiTeam Software
  – Gefördert durch BMWi
     • 5. Energieforschungsprogramm
       der Bundesregierung
     • 2 Jahre Laufzeit
         (Juli 2011 bis Juni 2013)
  – Mehr Infos:
     https://www.enargus.de
Aufwand/Nutzen
• Aufwand: Aufbau der Ontologie
  – Erfordert Expertenwissen
     • Ontologie-Experten und Experten der Fachdomäne
  – (Teil-)Automatisierung durch Sprachanalyse
     • Ziel: Fachexperten dokumentieren im Wiki und System
       extrahiert automatisch die Fachontologie daraus
• Nutzen
  – Bessere Unterstützung bei der Suche
     • z.B. Vorschlagen von verwandten Begriffen
     • Dadurch mehr relevante Treffer und zielgerichtete Suche
  – Wiki ist zugleich hilfreich für Anwender
     • Verknüpfung von Fachbegriffen mit Wiki als eine Art Glossar
EnArgus: Teilsysteme
EnArgus.master                    EnArgus.public

• Für die interne Nutzung         • Für die Öffentlichkeit
• Vollzugriff auf die Vorhaben-
  Datenbank                       • Einfache Bedienung
• Hinzufügen von Inhalten/        • Ansprechende Webseiten
  Dokumenten zu Vorhaben          • Eingeschränkter Zugriff auf
  über Kooperationsplattform
                                    Daten von Vorhaben
• Zugang zu Recherche-
  Funktionen                      • Einfache Suchfunktion
• Expertensuche, gespeicherte     • Lesender Zugriff auf
  Suchen etc.                       EnArgus.wiki
EnArgus.public
• Öffentliches
  Teilsystem
EnArgus.public
• Facetten
EnArgus.public
• Facetten
EnArgus.public
• Details
Details zum Wiki
• Vorgehensweise
   – Vorlage im Wiki für die Energie-Experten zur
     Beschreibung von Objekten
   – Aus Beschreibungen wurde von Ontologie-Experten zunächst der
     obere Teil der Ontologie aufgebaut ("upper ontology")
• Bearbeitete Fachthemen:
   –   Elektrochemische Energiespeicher
   –   CCS (Carbon Dioxide Capture and Storage)
   –   Windenergie
   –   Elektrische Energiespeicher
• Einschränkungen / Hinweise
   – Formulierungen im Wiki sollten in einfacher Sprache erfolgen, damit
     die Sprachanalyse verwertbare Ergebnisse liefert.
• Technische Basis: MoinMoin Wiki
Wiki: Beispiele
Informationsextraktion
• Aufbau der Ontologie durch Textanalyse
  – Wiki-Texte werden (durch Software) ausgewertet
  – In diesem Prozess erfolgt die Umwandlung von
    Text in Wissen!
  – Ergebnis der Informationsextraktion ist die
    (aktualisierte/erweiterte) Ontologie
  – Technik:
     • Text mining
     • Semantic Role Labeling (SRL)
  – Tools:
     • GATE (General Architecture for Text Engineering)
     • Protegé/OWL
Details zur Ontologie
• Grundlage jeder Ontologie ist eine Taxonomie
  – relevante Begriffe der Domäne werden in einem
    Baum repräsentiert
  – Begriffe sind nach Ober- und Unterklassen
    angeordnet
• Ontologie dient der Wissensrepräsentation
  – Begriffe enthalten Attribute
    (z.B. Eigenschaften oder andere Schreibweisen)
  – Zusätzliche Relationen zwischen den Begriffen
    bilden weitere semantische Beziehungen ab
Ontologiebasierte Suche

• Benutzer können eine
  Suchanfrage starten und
  Suchbegriff(e) eingeben
• in der einfachen Suche werden
  Synonyme automatisch mit in
  die Anfrage einbezogen
  (optional)
• in der erweiterten Suche
  werden semantisch verwandte
  Begriffe (aus der Ontologie)
  angeboten
Ontologiebasierte Suche

• Benutzer können eine
  Suchanfrage starten und
  Suchbegriff(e) eingeben
• in der einfachen Suche werden
  Synonyme automatisch mit in
  die Anfrage einbezogen
  (optional)
• in der erweiterten Suche
  werden semantisch verwandte
  Begriffe (aus der Ontologie)
  angeboten
Ontologiebasierte Suche

• Benutzer können eine
  Suchanfrage starten und
  Suchbegriff(e) eingeben
• in der einfachen Suche werden
  Synonyme automatisch mit in
  die Anfrage einbezogen
  (optional)
• in der erweiterten Suche
  werden semantisch verwandte
  Begriffe (aus der Ontologie)
  angeboten
Ontologiebasierte Suche

• Benutzer können eine
  Suchanfrage starten und
  Suchbegriff(e) eingeben
• in der einfachen Suche werden
  Synonyme automatisch mit in
  die Anfrage einbezogen
  (optional)
• in der erweiterten Suche
  werden semantisch verwandte
  Begriffe (aus der Ontologie)
  angeboten
Suchergebnisse
• Ansicht der Treffer
  – Darstellung von Details (pro Vorhaben)
Auswertungen
• Akkumulation der
  Suchergebnisse
  – Konkrete
    Fragestellung:
    Verteilung der
    Förderkosten
    über die Jahre
Ausblick
• Weitere Aspekte im Projekt
   – Unterstützung der Datenanalyse
      • Statistische Auswertungen von Abfragen
      • Graphische Visualisierung von Zusammenhängen
       Recherche-Cockpit (derzeit in der Entwicklung)
• Weitere Ideen für die Zukunft
   – Unterstützung von Mehrsprachigkeit
   – Ausbau der Datenbasis (Erfassung weiterer Themenfelder aus
     der Energieforschung)
   – ergonomischere Bedienung für die Fachexperten
     (z.B. durch grafischen Ontologieeditor)
   – Einbeziehung weiterer externer Datenquellen
   – Automatisierte Verschlagwortung von Vorhaben
     (durch Tagging-Verfahren)
Diskussion/Fragen
• Fragen an die KM-Community
  – Erfahrungen mit Wissensmodellierung
  – weitere Ansätze zur inhaltlichen Erschließung
    einer Anwendungsdomäne
    (und Erfahrungen damit)?
  – Erfahrungen mit ontoligiebasierter Suche
  – Unterschied ‚Fachwissen‘ vs. ‚Prozesswissen‘ ?!
     • Glossar vs. Rezeptbuch

Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispiel des Projektes EnArgus

  • 1.
    Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispiel des Projektes EnArgus Thomas Koch OrbiTeam Software GmbH & Co. KG KnowledgeCamp 2012, Karlsruhe
  • 2.
    Kurzvorstellung: EnArgus-Projekt • Ziel:Entwicklung und Erprobung eines zentralen Informationssystems für Energieforschungs- vorhaben aus dem Bereich der Förderung durch Bund und Länder • Unterschiedliche Zielgruppen – Die interessierte Öffentlichkeit • Überblick über Forschungsprojekte – Die Geldgeber (Ministerien, Projektträger) • Was wird/wurde gefördert (inhaltliche Fragen) • Forschungstrends, Experten, Verteilung Fördermittel etc.
  • 3.
    Ausgangssituation Diverse Problemstellungen undAnforderungen • Projektdaten sind auf eine Vielzahl nicht kompatibler Datenbanken verstreut • Datenbanken sind eher betriebswirtschaftlich motiviert und zur fachlichen Auswertung wenig geeignet • Bedarf nach Auswertungswerkzeugen und erweiterten Recherchemöglichkeiten • Vorhabenbeschreibungen sind oftmals sehr fachspezifisch – Wissen über Fachgebiet für Recherche erforderlich
  • 4.
    Idee Verbesserte Suche durch Wissenserschließung •Wiki-texte Fachexperte – Werden von Fachexperten gemeinsam verfasst • Informationsextraktion – Aufbau der Ontologie durch Textanalyse • Ontologie – Dient der formalen und expliziten Repräsentation von Wissen • Suchanfrage – Wird durch verwandte Begriffe aus Ontologie angereichert • Optimierte Suchergebnisse  zufriedene Benutzer  Anwender
  • 5.
    Vorgehen • Zusammenführen vonDaten aus versch. Quellen – Projektdaten aus PROFI (administrative Daten) – Projektdokumente mit Inhalt (z.B. Berichte) – Inhaltliche Erschließung über Suchmaschine • Inhaltssuche (Volltext) und Metadatensuche • Unterstützung der Recherche durch Fachontologie – Fachontologie wird mit Hilfe der Energieexperten erstellt – Energieexperten formulieren Sachzusammenhänge im Wiki – Ontologieexperten realisieren Erfassung des Wikis durch Methoden der Sprachanalyse und Wissensextraktion – IT-Experten implementieren das Basis-System mit Suchfunktionen, die auf die Ontologie zurückgreifen
  • 6.
    EnArgus Systemarchitektur Auswertung & Suchanfragen Energie- Visualisierung & -ergebnisse Kooperations- Ontologie- forschungs Unterstützg. Editor -Wiki Recherche-Cockpit BSCW Core Ontologie Core Wiki-Seiten Index EnArgus-DB Dokumente Ontologie-DB
  • 7.
    Fakten: EnArgus® • NationalesForschungsvorhaben – Partner: aus Energieforschung und Informatik • Fraunhofer FIT, FKIE, UMSICHT und ISI • Forschungszentrum Jülich • Ruhr-Universität Bochum • OrbiTeam Software – Gefördert durch BMWi • 5. Energieforschungsprogramm der Bundesregierung • 2 Jahre Laufzeit (Juli 2011 bis Juni 2013) – Mehr Infos: https://www.enargus.de
  • 8.
    Aufwand/Nutzen • Aufwand: Aufbauder Ontologie – Erfordert Expertenwissen • Ontologie-Experten und Experten der Fachdomäne – (Teil-)Automatisierung durch Sprachanalyse • Ziel: Fachexperten dokumentieren im Wiki und System extrahiert automatisch die Fachontologie daraus • Nutzen – Bessere Unterstützung bei der Suche • z.B. Vorschlagen von verwandten Begriffen • Dadurch mehr relevante Treffer und zielgerichtete Suche – Wiki ist zugleich hilfreich für Anwender • Verknüpfung von Fachbegriffen mit Wiki als eine Art Glossar
  • 9.
    EnArgus: Teilsysteme EnArgus.master EnArgus.public • Für die interne Nutzung • Für die Öffentlichkeit • Vollzugriff auf die Vorhaben- Datenbank • Einfache Bedienung • Hinzufügen von Inhalten/ • Ansprechende Webseiten Dokumenten zu Vorhaben • Eingeschränkter Zugriff auf über Kooperationsplattform Daten von Vorhaben • Zugang zu Recherche- Funktionen • Einfache Suchfunktion • Expertensuche, gespeicherte • Lesender Zugriff auf Suchen etc. EnArgus.wiki
  • 10.
  • 11.
  • 12.
  • 13.
  • 14.
    Details zum Wiki •Vorgehensweise – Vorlage im Wiki für die Energie-Experten zur Beschreibung von Objekten – Aus Beschreibungen wurde von Ontologie-Experten zunächst der obere Teil der Ontologie aufgebaut ("upper ontology") • Bearbeitete Fachthemen: – Elektrochemische Energiespeicher – CCS (Carbon Dioxide Capture and Storage) – Windenergie – Elektrische Energiespeicher • Einschränkungen / Hinweise – Formulierungen im Wiki sollten in einfacher Sprache erfolgen, damit die Sprachanalyse verwertbare Ergebnisse liefert. • Technische Basis: MoinMoin Wiki
  • 15.
  • 16.
    Informationsextraktion • Aufbau derOntologie durch Textanalyse – Wiki-Texte werden (durch Software) ausgewertet – In diesem Prozess erfolgt die Umwandlung von Text in Wissen! – Ergebnis der Informationsextraktion ist die (aktualisierte/erweiterte) Ontologie – Technik: • Text mining • Semantic Role Labeling (SRL) – Tools: • GATE (General Architecture for Text Engineering) • Protegé/OWL
  • 17.
    Details zur Ontologie •Grundlage jeder Ontologie ist eine Taxonomie – relevante Begriffe der Domäne werden in einem Baum repräsentiert – Begriffe sind nach Ober- und Unterklassen angeordnet • Ontologie dient der Wissensrepräsentation – Begriffe enthalten Attribute (z.B. Eigenschaften oder andere Schreibweisen) – Zusätzliche Relationen zwischen den Begriffen bilden weitere semantische Beziehungen ab
  • 18.
    Ontologiebasierte Suche • Benutzerkönnen eine Suchanfrage starten und Suchbegriff(e) eingeben • in der einfachen Suche werden Synonyme automatisch mit in die Anfrage einbezogen (optional) • in der erweiterten Suche werden semantisch verwandte Begriffe (aus der Ontologie) angeboten
  • 19.
    Ontologiebasierte Suche • Benutzerkönnen eine Suchanfrage starten und Suchbegriff(e) eingeben • in der einfachen Suche werden Synonyme automatisch mit in die Anfrage einbezogen (optional) • in der erweiterten Suche werden semantisch verwandte Begriffe (aus der Ontologie) angeboten
  • 20.
    Ontologiebasierte Suche • Benutzerkönnen eine Suchanfrage starten und Suchbegriff(e) eingeben • in der einfachen Suche werden Synonyme automatisch mit in die Anfrage einbezogen (optional) • in der erweiterten Suche werden semantisch verwandte Begriffe (aus der Ontologie) angeboten
  • 21.
    Ontologiebasierte Suche • Benutzerkönnen eine Suchanfrage starten und Suchbegriff(e) eingeben • in der einfachen Suche werden Synonyme automatisch mit in die Anfrage einbezogen (optional) • in der erweiterten Suche werden semantisch verwandte Begriffe (aus der Ontologie) angeboten
  • 22.
    Suchergebnisse • Ansicht derTreffer – Darstellung von Details (pro Vorhaben)
  • 23.
    Auswertungen • Akkumulation der Suchergebnisse – Konkrete Fragestellung: Verteilung der Förderkosten über die Jahre
  • 24.
    Ausblick • Weitere Aspekteim Projekt – Unterstützung der Datenanalyse • Statistische Auswertungen von Abfragen • Graphische Visualisierung von Zusammenhängen  Recherche-Cockpit (derzeit in der Entwicklung) • Weitere Ideen für die Zukunft – Unterstützung von Mehrsprachigkeit – Ausbau der Datenbasis (Erfassung weiterer Themenfelder aus der Energieforschung) – ergonomischere Bedienung für die Fachexperten (z.B. durch grafischen Ontologieeditor) – Einbeziehung weiterer externer Datenquellen – Automatisierte Verschlagwortung von Vorhaben (durch Tagging-Verfahren)
  • 25.
    Diskussion/Fragen • Fragen andie KM-Community – Erfahrungen mit Wissensmodellierung – weitere Ansätze zur inhaltlichen Erschließung einer Anwendungsdomäne (und Erfahrungen damit)? – Erfahrungen mit ontoligiebasierter Suche – Unterschied ‚Fachwissen‘ vs. ‚Prozesswissen‘ ?! • Glossar vs. Rezeptbuch