Geodatenmanagement und -Visualisierung mit Oracle Spatial Technologies
IT-Tage 2017: Visuelle Analyse komplexer Datenbestände am Beispiel der Panama Papers
1. Visuelle Analyse von komplexen Daten
am Beispiel der Panama Papers
Karin Patenge | Oracle Deutschland B.V. & Co. KG
Dr. Thorsten Liebig | derivo GmbH
t
11. – 14.12.2017
Frankfurt am Main
#ittage2017„Making value out of data“
2. Safe Harbor Statement
The following is intended to outline our general product direction. It is intended for
information purposes only, and may not be incorporated into any contract. It is not a
commitment to deliver any material, code, or functionality, and should not be relied upon
in making purchasing decisions. The development, release, and timing of any features or
functionality described for Oracle’s products remains at the sole discretion of Oracle.
3. Agenda
1
2
3
Oracle Strategie: All Data Management
Von Graphen und Datenbanken
Analyse komplexer Daten am Beispiel der Panama Papers
Zusammenfassung
Q&A
4
5
@kpatenge #ittage2017
4. Oracle All Data Management: Entwicklungssicht
@kpatenge #ittage2017
Programmiersprachen
Datenmodelle
Database Requirements For Modern Development
http://www.oracle.com/technetwork/articles/database/db-requirements-developers-wp.pdf
5. Oracle All Data Management: Integration und Betrieb
Oracle SQL
@kpatenge #ittage2017
6. “All data are graphs
(… or networks)”
"Linking Open Data cloud diagram 2017, by Andrejs Abele, John P. McCrae,
Paul Buitelaar, Anja Jentzsch and Richard Cyganiak. http://lod-cloud.net/"
@kpatenge #ittage2017
7. Datenmodelle mit Fokus auf Beziehungen
• Def.: Graphen beschreiben die Beziehungen zwischen den Elementen einer Menge von
Objekten (der realen Welt).
• Bausteine / Zentrale Begriffe:
– Knoten (Nodes) Objekte
– Kanten (Links) Beziehungen
• Basis-Operationen auf Graphen
– Operationen aus der Mengenlehre
– Traversieren im Knoten-Kanten-Modell
• Analysen
– Anwendung von Algorithmen aus Graphentheorie
– Neues Wissen ableiten (Inferencing)
– Mustererkennung
– Semantische Suchen
• Graph wird häufig synonym verwendet für Linked (Open) Data
@kpatenge #ittage2017
8. Was macht Graphen besonders attraktiv?
• Intuitives und flexibles/elastisches
Datenmodell
– Einfach und beliebig erweiterbar
• Neue Knoten und Kanten
• Neue Eigenschaften von Knoten und Kanten
• Modellierung unterschiedlichster
Informationszusammenhänge
• Bilden komplexe Datenstrukturen
ab und erlauben effizienten Zugriff
darauf
• Erfordern kein vorher definiertes
Schema
• Einfach zu traversieren
• Einfach zu verknüpfen
• Vielfältige Analysemöglichkeiten
• Natürliches Verständnis durch
Möglichkeiten der Visualisierung
@kpatenge #ittage2017
9. Unterstützung für Graphen bei Oracle
RDF Graph
• Data Federation
• Semantic Web
• Knowledge Representation
Social Network
Analysis
• Public Safety
• Social Media search
• Marketing - Sentiment
Linked Data /
Semantic
Metadata Layer
Property Graph
• Graph Data Management
• Social Network Analysis
• Entity Analytics
• Life Sciences
• Health Care
• Publishing
• Finance
Spatial Network
Analysis
• Logistics
• Transportation
• Utilities
• Telecoms
Spatial Graph
• Network Path Analysis
• Transportation Modeling
@kpatenge #ittage2017
11. Train Neural
Network model
Data Cleansing
& Preparation
Generate
Property Graph
Load
Property Graph
into BDSG
Graph
Visualization
Dataset
Selection
Anwendungsbeispiel Property Graph:
Network Intrusion Detection
• Results
– Blue edges: malicious
– Other edges: normal traffic
– Many attacks originated from
• 175.45.176.1 to target
• 149.171.126.17
• Big Data Spatial and Graph
• Visualization: Cytoscape
12. Karin Patenge | karin.patenge@oracle.com
Business Development Manager Technology
Oracle Deutschland B.V. & Co. KG
http://oracle-spatial.blogspot.de
www.biwasummit.org
13. derivo
17
• KMU (2010)
• Entwicklung und Realisierung von
Software-Lösungen
• Expertise:
Smart Data, Big Data und
Semantische Technologien
• Kunden:
Sicherheitsbehörde
Maschinenindustrie
Verlage
Rating-Agentur
14. Panama Papers Leak
18
• 2,6 Terabyte Daten
• 11,5 Millionen Dokumente; verwaltet von ICIJ
bearer
beneficial owner
nominee
owner/shareholder/director/…
entity
bank
Quelle:SZ
15. Panama Papers – ICIJ Datenforensik
19
CSV-Datei
+
Graphdatenbank
Import +
Texterkennung
textuelle
Suchmaschine
Entity Adresse Land Gründung
Blue Sky Vision Ltd. c/o Mossfon Panama 11-Nov-2014
Flower of Sky Corp. c/o Bank of Samoa, Ms. Berg Samoa 11-Oct-2005
Joyful Sky Int. Ltd. c/o Mossfon Panama 06-Nov-2013
Officer Beziehung Entity
Peter N. executive of Flower of Sky Corp.
... nominee shareholder of ...
... ... ...
17. Semantische Technologien - Beispiel
21
Hans
Petra
Jan
sind-geschwister
hat-sohn
Kategorie Objekt
Mann Hans
Frau Petra
Mann Jan
Objekt Beziehung Objekt
Petra hat-sohn Jan
Petra sind-geschwister Hans
hat-neffe
• Die “sind-geschwister” Beziehung ist symmetrisch
“Experten”-Wissen:
• Die “hat-neffe“ Beziehung ist eine Verkettung von „sind-geschwister“ und „hat-sohn“
• Ein Mann ist ein Onkel, wenn er einen Neffen hat
Onkel Hans
Hans sind-geschwister Petra
Hans hat-neffe Jan
FrauMann
Mann
18. Die Panama Papers
22
Ontologieschema:
• Kategorien
• Gegeben: Officer, Entity, Address, Country, ...
• Definiert: Z.B. Entity in Deutschland, ...
• Beziehungen:
• address of
• executive of
• intermediary of
• is in jurisdiction
• is served by
• service agent of
• shareholder/beneficial
• similar to
• unclassified
Wie werden die 250
verschiedenen
Verknüpfungstexte der über
4,5 Mio. Aussagen auf diese 9
Beziehungen gebracht?
secretary
corporate secretary
secr.
company secretary
secretar
secretary of
…
19. Regelbasierter Importer
23
Interaktives Werkzeug:
Musteraussage Beziehung
① mit zusammenfassender Darstellung aller Verknüpfungs-aussagen:
Musteraussagen (ohne Füllwörter, Trenner etc.)
② geführter Erstellung von textbasierten Abbildungsregeln auf
Ontologiebeziehungen (mit/ohne Präfix/Suffix etc.)
Regel
Officer shareholder Entity
Officer beneficiary Entity
Officer executive director Entity
Officer director Entity
Officer records &
registers
Entity
* director
* registers
shareholder
executive of
service agent of
beneficiary
shareholder
23. Zusammenfassung
29
▶ Viele Daten haben inhärent eine Graph-Struktur
▶ Unterstützung zur Verwaltung von Graphdaten vorhanden
▶ Semantische Methoden mit RDF zur automatischen Nutzung von
Anwendungswissen
▶ Hauptnutzen: Höhere Datenqualität und Anwendungslogik „näher an den
Daten“
▶ Anfrageschnittstelle und Datenvisualisierung erfolgskritisch
▶ Mit SemSpect schnelle und belastbare Analyseergebnisse
▶ Panama Papers: http://panama.semspect.de
Mehr Beispiele unter: http://www.semspect.de
24. Danke.
d erivo Gm b H
Jam es Franck Ring
890 81 Ulm
w w w.d erivo.d e
Sem ant ische Syst em e
Dr. Thorsten Liebig
liebig@derivo.de
derivo GmbH
Münchner Straße 1
89073 Ulm
www.derivo.de