Ich spreche mit dir, doch du nicht mit mir Semantische Herausforderungen elektronischen Datenaustauschs Johann Höchtl Dona...
Die große Verwirrung <ul><li>Pieter Breugel, der Ältere:Der Turmbau zu Babel - 1563, im Kunsthistorischen Museum in Wien <...
Was ist Semantik? <ul><li>Chinesische Schriftzeichen </li></ul><ul><ul><li>Unterschiedliche Aussprache </li></ul></ul><ul>...
Sprachprobleme “ Our wines leave you nothing to hope for” Unsere Weine lassen nichts zu wünschen übrig! Bei unseren Weinen...
Brücken <ul><li>Konzepte.Verbinden </li></ul><ul><li>Weizen vs. Reis </li></ul><ul><li>Rotwein vs. Sake </li></ul><ul><li>...
Super / Sub - Concepts <ul><li>Weizen vs. Reis </li></ul><ul><li>Rotwein vs. Sake </li></ul><ul><li>Surströmming vs.  Taus...
Wer wir sind und was wir tun <ul><li>Zentrum für E-Government </li></ul><ul><ul><li>Vereinfachung von Abläufen innerhalb u...
Warum ist E-Kooperation notwendig für E-Government? <ul><li>Zuerst: Was sind die Funktionen des „Government“? </li></ul><u...
E-Zusammenarbeit: Warum tut sich ein Staat schwer(er) dabei? <ul><li>Staat ist  Monopolist </li></ul><ul><ul><li>In vielen...
E-Zusammenarbeit: Voraussetzung gegenseitiges „Verstehen“ http://healthbase.netbase.com
E-Zusammenarbeit: Voraussetzung gegenseitiges „Verstehen“ <ul><li>“ The tragi-comic failure of Netbase can teach a lot to ...
Ähnlichkeitsprobleme <ul><li>Wie kann ein Computersystem zwei Konzepte als “ähnlich” erkennen? </li></ul><ul><li>Ausgangsp...
Arten von Ähnlichkeiten <ul><li>Strukturelle  Ähnlichkeit </li></ul><ul><ul><li>„ Was ähnlich Aussieht, ist auch ähnlich“ ...
Dem Computer „Verständnis“ beibringen <ul><li>Computer können nicht denken und selbsttätig Schlüsse  ziehen </li></ul><ul>...
Beispiel: Das Auto und seine Verwandten Quelle: www.Opencyc.org
Anwendungen computerunterstützen semantischen Verstehens im E-Government
Unsere Station:  N – A18
Danke für die Aufmerksamkeit! Unser Stand:  N - A18  1. Stock Fragen?
Links <ul><li>Gerti Kappel, Horst Kargl, Gerhard Kramler, Andrea Schauerhuber, Martina Seidl, Michael Strommer, and Manuel...
Nächste SlideShare
Wird geladen in …5
×

Ich spreche mit dir doch du nicht mit mir - Sematische Verständigungsprobleme

964 Aufrufe

Veröffentlicht am

Veröffentlicht in: Bildung
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
964
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
4
Aktionen
Geteilt
0
Downloads
0
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie
  • My name is Johann Höchtl I am from Danube University Austria and I will present you some challenges of semantic interoperability and recent research to overcome the problems. Semantic interoperability is much about connecting concepts, thus the term semantic “bridging”. Istanbul would not be metropoly of the importance it has without the two big bridges connecting Europa and Asia. When thinking about Europe and Asia, certain associations arouse. Both have a characteristic food culture, traditional clothing and distinct medical cultures. Terms as Corn and Rice, Red Wine and Sake, Bachblüten and Reiki have something in common, a relationship which can be modeled on a higher level.
  • While the first three concepts fall into the food domain with Corn and Rice being an important protein source, Lederhose and Sari have in common that they are super of concept Clothing and share the property Natural Material and Bachblüten and Reiki are alternative medical treatments. To even more complicate things you can identify horizontal properties. They have in common that they all can be bought which belongs to Finance domain. What we can identify here are relationships and properties, hierarchy attributes. In terms of knowledge engineering these properties are termed superconcepts and sub-concepts or Higher Ontology vs. Lower ontology. As a knowledge worker you may find ask yourself whether you are a generalist or specialist.
  • After this small introductory stuff about what semantic bridging is about, some more information about my workplace. I work for Danube University Krems, the only publicly owned university for continuing education in Austria. The research focus of Center for E-Government is in E-Democracy and the impact of electronic participation on society. You will find out more about what we do when you browse to and participate on our public blog. If you are interested you may submit a paper to to E-Journal of E-Democracy and Open Government.
  • So why are we as a center for e-Government interested in Semantic Ontology driven data exchange? Because the current state of affairs in semantic land does not permit unguided exchange on the semantic level. As long as only technical interoperability is concerned for example when you can strictly follow an XML schema specification, things are fine. But not when it comes down to semantic systems without enriched domain knowledge. In the research we made together with the CIO section of Austrian Chancellery we found out that the recall rate of semantic bridging systems which focus on domain knowledge is higher than in systems which try to extract or reconstruct that domain knowledge by dictionary lookups, word frequency analysis or stemmer approaches. Three months ago netbase made a new service publicly available, a Content Intelligence platform for healthcare. Based on user input he gets treatment advises and possible causes and cures for diseases. While some of the results may be funny, but taken to seriously those advice can be more of harm than good. Here some funny assertions by the system. Since it’s release the system has improved as those funny assertions are not returned any longer.
  • So why are we as a center for e-Government interested in Semantic Ontology driven data exchange? Because the current state of affairs in semantic land does not permit unguided exchange on the semantic level. As long as only technical interoperability is concerned for example when you can strictly follow an XML schema specification, things are fine. But not when it comes down to semantic systems without enriched domain knowledge. In the research we made together with the CIO section of Austrian Chancellery we found out that the recall rate of semantic bridging systems which focus on domain knowledge is higher than in systems which try to extract or reconstruct that domain knowledge by dictionary lookups, word frequency analysis or stemmer approaches. Three months ago netbase made a new service publicly available, a Content Intelligence platform for healthcare. Based on user input he gets treatment advises and possible causes and cures for diseases. While some of the results may be funny, but taken to seriously those advice can be more of harm than good. Here some funny assertions by the system. Since it’s release the system has improved as those funny assertions are not returned any longer.
  • Some fundamentals properties on semantics. First and foremost semantic bridging is much about the detection of similarity in a computerized manner. When semantic information is for example in OWL-DL format it first has to be converted into machine processable representation, which usably is that of a matrix. The two dimensions of the matrix contain the similarity of identified concepts and their similarity expressed between 0 and 1 with 0 meaning no similarity and 1 meaning either identical or full semantic match. As for the human eye a matrix is not the most intuitive form to visualize semantic information, for the human perception, Directed Acyclic Graphs or for special inheritance relationships trees are sensible graphical representations. The naïve approach to compute similarity is to completely enumerate all concepts and to compare pairwise. The theoretical amount of required data processing power for a complete DNA analysis or Internet Data Mining required new comparison algorithms, which reduce the computational complexity to less than NP-complete. A prominent early algorithm was the marching ants algorithm to solve the traveling salesman problem in reasonable time.
  • Many of those semantic similarity problems have their origins in detecting structural similarity, for example comparing the similarity between graphs. Especially in the realm of graph similarity, the influence of semantic similarit research resulted in new approaches and algorithms. While the number of edit operations to transform a tree A into a structural equivalent tree B are rather old, similarity flooding is a quite new methodology. The idea behind similarity flooding is the fundamental assumption, that two concepts are similar, if their neighbors are similar. While this algorithm iteratively traverses the graph at least two-fold and has terrible runtime complexity, additional sensible constraints help to improve the performance for example the maximum depth at which to propagate a similarity of node based on its surrounding nodes or branch prediction to stop comparing branches which are unlikely to match given a certain threshold. Besides the structural similarity of Graphs the element names and their assigned data types also contain semantic information. Dictionary bases algorithms calculate the relatedness of words or similar words may be identified by the soundex or levenshtein-algorithm. Combining multiple similarity measures into one concept, eg. Structural similarity between two nodes and their soundex similarity is another challenge. Once the similarity matrix has been established, the most likely matching pairs have to be determined. Based on similarity indices in the matrix Concepts of A can been as feature vectores and compared to the feature vectors of concept B with the euclidean distance, the well-know cosine distance or the Jaccard coefficent. The Jaccard coefficient measures similarity between sample sets, and is defined as the size of the intersection divided by the size of the union of the sample sets.
  • While the previous slide presented algorithms derived from schema matching which are applicable in ontology matching, these algorithms do not account enough for the semantics in an ontology. A frequent problem is to identify the most specific ancestor in an ontology. The EDGE and LEACOCK algorithm for example measure the relatedness of ontologies entirely on distance between edges in the ontology represented as a Directed Graph. In 1995 RESNIK proposed a similarity approach which accounts for the depth of the concepts in the Graph. A node carries less information the higher it can be found along the inheritance line. Dekang Lin refined this concept in 1998 with a very clever, universally applicable, domain and resource-neutral concept. He defines similarity by the amount of information the concepts share in relation to the smallest common sub-concept. To give you an idea on how complex this is, in 2005 a paper was presented to WWW Conference in Chiba Japan. The Department of CS of University of Indiana, US, compared a traditional tree-based approach to a graph-based analysis of similarity between all concepts available on DMOZ.org, excluding world and regional. In 2005 DMoz.org had 150.000 pages. The Calculation of graph-based similarity on hierarchical component and the two non-hierarchical components symbolic and related cross-links required a total of 5000 CPU-hours on a massively parallel CPU cluster consisting of 416 Prestonian cores. But abbreviations or association words add a level of complexity which prevents automatic inference of concepts . In this cases either a custom dictionary knowledge represented in SWRL predicate logic or simply a human based mapping can solve these mapping problems.
  • Ich spreche mit dir doch du nicht mit mir - Sematische Verständigungsprobleme

    1. 1. Ich spreche mit dir, doch du nicht mit mir Semantische Herausforderungen elektronischen Datenaustauschs Johann Höchtl Donau Universität Krems Zentrum für E-Government
    2. 2. Die große Verwirrung <ul><li>Pieter Breugel, der Ältere:Der Turmbau zu Babel - 1563, im Kunsthistorischen Museum in Wien </li></ul>
    3. 3. Was ist Semantik? <ul><li>Chinesische Schriftzeichen </li></ul><ul><ul><li>Unterschiedliche Aussprache </li></ul></ul><ul><ul><li>Eine gemeinsame semantische Bedeutung </li></ul></ul><ul><li>ChinesInnen können sich vielleicht nicht gemeinsam unterhalten (sprechen), aber sie können die selbe Zeitung lesen </li></ul>Natalie Behring-Chisholm/Getty Images für Life Magazine Semantik – Über die Bedeutung von „Zeichen“; Nicht nur Schrift-zeichen , sondern alles was „ begriffen “ werden kann © /cocoarmani@Flickr
    4. 4. Sprachprobleme “ Our wines leave you nothing to hope for” Unsere Weine lassen nichts zu wünschen übrig! Bei unseren Weinen besteht keine Hoffnung !? “ We take your Bags and send them in all directions” Wir versenden Ihr Gepäck überall hin! Wir nehmen Ihre Koffer und verschicken sie in alle Richtungen !? The Beatles:Magical Mystery Tour (1967) I say hello Hello, hello I don't know why you say goodbye I say hello
    5. 5. Brücken <ul><li>Konzepte.Verbinden </li></ul><ul><li>Weizen vs. Reis </li></ul><ul><li>Rotwein vs. Sake </li></ul><ul><li>Surströmming vs. Tausenjährige Eier </li></ul><ul><li>Lederhosen vs. Sari </li></ul><ul><li>Bachblüten vs. Reiki </li></ul><ul><li>. </li></ul><ul><li>. </li></ul>Istanbul Brücken Map by Openstreetmap.org Europa Asien
    6. 6. Super / Sub - Concepts <ul><li>Weizen vs. Reis </li></ul><ul><li>Rotwein vs. Sake </li></ul><ul><li>Surströmming vs. Tausendjährige Eier </li></ul>Experte in “eh-Alles” vs. bereichspezifisches Wissen Essen Kohlenhydrate Alkohol Natürlich konserviert Lederhosen vs. Sari Bekleidung Natürliche Materialien Bachblüten vs. Reiki Medizin Alternative Medizin Superconcept / Higher Ontology Sub-Concept / Lower Ontology Finanz  kaufen Logistik  lagern
    7. 7. Wer wir sind und was wir tun <ul><li>Zentrum für E-Government </li></ul><ul><ul><li>Vereinfachung von Abläufen innerhalb und zwischen behördlichen Institutionen sowie zu Bürgern, der Wirtschaft, … , unter Einsatz von Informations- und Kommunikationstechniken. </li></ul></ul><ul><li>Forschungsschwerpunkt: Elektronische Beteiligung im Administrations- und Gesetzgebungsprozess und die Auswirkungen auf die Gesellschaft </li></ul><ul><ul><li>www.donau-uni.ac.at/egov / </li></ul></ul><ul><ul><li>http://digitalgovernment.wordpress.com </li></ul></ul><ul><ul><li>Journal of E-Democrcy and Open Government http://www.jedem.org </li></ul></ul>
    8. 8. Warum ist E-Kooperation notwendig für E-Government? <ul><li>Zuerst: Was sind die Funktionen des „Government“? </li></ul><ul><ul><li>Staatliche Aufgaben wahrnehmen </li></ul></ul><ul><ul><li>Prämissen der Aufgabenerfüllung: effektiv, effizient, sparsam, zweckmäßig, verhältnismäßig </li></ul></ul><ul><li>Letztendlich geht es darum, Österreich als lebenswerten und zukunftstauglichen Staat zu erhalten </li></ul><ul><ul><li>unter rechtlichen, … , Einschränkungen (Innerstaatlich, EU) </li></ul></ul><ul><li>Treiber ist Konvergenz vieler Faktoren </li></ul><ul><ul><li>Fall der physischen Mauer(n) (Berliner Mauer) </li></ul></ul><ul><ul><li>Fall der virtuellen Mauern (Zölle, Handelsbeschränkungen) </li></ul></ul><ul><ul><li>Fall der Preise für elektronische Kommunikation (Speicher, Geschwindigkeit </li></ul></ul><ul><li>Ergebnis: wirtschaftliche Zusammenarbeit geprägt von globalem Denken und Handeln </li></ul>
    9. 9. E-Zusammenarbeit: Warum tut sich ein Staat schwer(er) dabei? <ul><li>Staat ist Monopolist </li></ul><ul><ul><li>In vielen Bereichen konkurrenzlos, daher keine Notwendigkeit zu wettbewerbsorientierten agieren </li></ul></ul><ul><ul><li>Jurisdiktion, Grunderwerb, Heirat, (Firmengründung), (Straßenbau), [Telekomunikationsnetzwerke] </li></ul></ul><ul><li>staatliche Hoheit als „sicherer Hafen“ </li></ul><ul><ul><li>Überbetonung hegemonialen Handelns : Sicherheitszölle </li></ul></ul><ul><li>+ innerstaatliche Souveränität ( Föderalismus ) </li></ul><ul><ul><li>fördert Vielfalt – aber </li></ul></ul><ul><ul><li>staatliche Strukturen folgen nur sehr langsam den geänderten Rahmenbedingungen </li></ul></ul><ul><li>Idee : Privatisierung! </li></ul><ul><ul><li>New Public Management, Reagan/Thatcher ~ 1980 </li></ul></ul>
    10. 10. E-Zusammenarbeit: Voraussetzung gegenseitiges „Verstehen“ http://healthbase.netbase.com
    11. 11. E-Zusammenarbeit: Voraussetzung gegenseitiges „Verstehen“ <ul><li>“ The tragi-comic failure of Netbase can teach a lot to every company in the Semantic space.” </li></ul><ul><li>Lesson 1 : Don’t even try to boil the ocean of the WWW with these technologies. [The] Internet is full of valuable information but crap (or opinions) is 90% [of it] , the cost of getting rid of this crap and save only the good stuff is very high </li></ul><ul><li>Lesson 2 : Linguistic approaches are likely going to fail because search engines (and machines) can’t distinguish joke/seriousness, sarcasm/shame and sentiments in general. The semantic meaning is right there not in the words of a text. </li></ul><ul><li>Lesson 3 : If you choose to apply such approaches to one specific topic like Medicine (good choice) then stick to that topic , that means accept as INPUT only medical terms and provide as OUTPUTS only medical terms. </li></ul><ul><li>This last point requires human intervention and predefined taxonomies/ontologies but Netbase claims that they don’t need them both, ]i.e., that] their engine is fully automatic the failure too.” </li></ul>Reddit: Source: http://marklogic.blogspot.com/2009/09/netbase-tragicomedy-perils-of-magic-and.html
    12. 12. Ähnlichkeitsprobleme <ul><li>Wie kann ein Computersystem zwei Konzepte als “ähnlich” erkennen? </li></ul><ul><li>Ausgangspunkt: Transformation in etwas “Berechenbares ” </li></ul><ul><ul><li>Computer können nur mit „Zahlen“ umgehen </li></ul></ul><ul><ul><li>Die geeignete Datenstruktur ist die Matrix, X and Y-Dimension enthalten identifizierte Konzepte und ihre Ähnlichkeit zueinander </li></ul></ul><ul><ul><li>Visualisierung als Baum oder gerichtete, azyklische Graphen </li></ul></ul><ul><li>Rechenaufwand ist sehr hoch ! </li></ul><ul><ul><li>Zwei Dokumente vergleichen: Jedes Wort mit jedem Wort vergleichen </li></ul></ul><ul><ul><li>Treiber: Bio-Medizin! </li></ul></ul><ul><ul><li>Neue Methoden aus der Genetik: Gensequenzierung </li></ul></ul><ul><li>Der Mensch ist im Erkennen von Ähnlichkeiten und Mustern unübertroffen! </li></ul>
    13. 13. Arten von Ähnlichkeiten <ul><li>Strukturelle Ähnlichkeit </li></ul><ul><ul><li>„ Was ähnlich Aussieht, ist auch ähnlich“ </li></ul></ul><ul><li>Element -basierte Ähnlichkeit </li></ul><ul><ul><li>„ Was ähnlich heißt, ist auch ähnlich“ </li></ul></ul><ul><li>Möglichkeiten um Ähnlichkeiten (computerbasiert) festzustellen </li></ul><ul><ul><li>Ähnliche Schreibweise </li></ul></ul><ul><ul><li>Ähnlicher „Klang“ (Aussprache) </li></ul></ul><ul><li>Problem!  Sprache!!! </li></ul><ul><ul><li>Was ähnlich „kling“, muss nicht ähnliche Bedeutung haben </li></ul></ul>ZielFlughafen  ZielFlghafen
    14. 14. Dem Computer „Verständnis“ beibringen <ul><li>Computer können nicht denken und selbsttätig Schlüsse ziehen </li></ul><ul><ul><li>„ Eine Frage der Erziehung“ </li></ul></ul><ul><ul><li>Verstehen : Begriffe („Wörtern“) Gewichte bezüglich Ihrer Verwandtschaft untereinander (zu)ordnen </li></ul></ul><ul><ul><li>In riesigen Datenbanken (vor allem für Englisch) sind diese Verwandtschaftsbeziehungen abgelegt. </li></ul></ul><ul><li>ABER : Abkürzungen, Kunstworte (AnkunftsZeitA, AnkunftsZeitB) Suffixe/Präfixe (hatName), fehlerhafte Wörter, frei erfundene Wörter lassen keine automatisierte Verarbeitung zu. </li></ul><ul><ul><li>Eingriff des Menschen ist notwendig </li></ul></ul>
    15. 15. Beispiel: Das Auto und seine Verwandten Quelle: www.Opencyc.org
    16. 16. Anwendungen computerunterstützen semantischen Verstehens im E-Government
    17. 17. Unsere Station: N – A18
    18. 18. Danke für die Aufmerksamkeit! Unser Stand: N - A18 1. Stock Fragen?
    19. 19. Links <ul><li>Gerti Kappel, Horst Kargl, Gerhard Kramler, Andrea Schauerhuber, Martina Seidl, Michael Strommer, and Manuel Wimmer, “Matching Metamodels with Semantic Systems - An Experience Report,” Mainz , 2007, pp. 38-52. </li></ul><ul><li>Fabien Duchateau and Zohra Bellahsène, “Designing a Benchmark for the Assessment of XML Schema Matching Tools,” Vienna, Austria: ACM, 2007. </li></ul><ul><li>Hong-Hai Do and Erhard Rahm, “Matching large schemas: Approaches and evaluation,” Science Direct , 2007, pp. 857-885. </li></ul><ul><li>www.opencyc.org </li></ul><ul><li>http://www.w3.org/2001/sw/ </li></ul>

    ×