The Panama Papers is an unprecedented investigation that reveals the offshore links of some of the globe's most prominent figures. ICIJ's data and research unit indexed, organized and analyzed the 2.6 terabytes of data that make up the leak. What can we learn from a technology perspective. Which use-cases and benefits on technologies like graph databases can we offer to our customers.
TechEvent 2019: The sleeping Power of Data; Eberhard Lösch - Trivadis
Trivaids TechEvent 2016 Panama Papers: from data to information by Frank Ferro
1. BASEL BERN BRUGG DÜSSELDORF FRANKFURT A.M. FREIBURG I.BR. GENF
HAMBURG KOPENHAGEN LAUSANNE MÜNCHEN STUTTGART WIEN ZÜRICH
Panama Papers
2,6 TB Daten in Information umwandeln
Frank Ferro
2. Aufdecken von Anti Financial Crime
Panama Papers - 2,6 TB Daten in Informationen
umwandeln
2 09.09.2016
We do not intend to suggest or imply that any persons, companies or other entities included
in the ICIJ Offshore Leaks Database have broken the law or otherwise acted improperly.
3. Das größte Leak aller Zeiten
Panama Papers - 2,6 TB Daten in Informationen
umwandeln
3 09.09.2016
Quelle: http://panamapapers.sueddeutsche.de/
5. Text: was nun?
Panama Papers - 2,6 TB Daten in Informationen
umwandeln
5 09.09.2016
Commerzbank: Einschnitte in Firmenkunden-Sparte geplant
Datum: 05.07.2016 14:16 Uhr
Lahmende Kreditnachfrage, Mini-Zinsen und Einschnitte im Mittelstands-
geschäft: Die Commerzbank will ihre Firmenkunden-Sparte verschlanken.
Doch ein reines Sparprogramm hat Chef Martin Zielke wohl nicht im Sinn.
Der neue Commerzbank-Chef Martin Zielke plant wegen mauer Kreditnach-
frage und niedriger Zinsen Einschnitte im Geschäft mit dem Mittelstand. …
„Vorstand Markus Beumer will unter Beweis stellen, dass er die Mittelstands-
bank auf Vordermann bringen kann“, sagte einer der Insider. Beumer hatte
auch als Kandidat für den Chefposten gegolten, den Posten erhielt dann
aber sein Vorstandskollege Zielke, der in den vergangenen Jahren das
Privatkundengeschäft grundlegend saniert hatte. „Dort hat man nicht nur
Stellen gestrichen, sondern auch etwa in die Digitalisierung investiert“, hieß
es in Kreisen des Aufsichtsrats. „Ein reines Sparprogramm wäre nicht das,
wofür man Zielke gewählt hat.“
Digitalisierung, Wachstum und Kosten sind Insidern zufolge die Stellschrau-
ben, an denen er arbeitet. Zielke, der am 1. Mai sein neues Amt angetreten
hatte, habe die Unternehmensberatung McKinsey engagiert, die Strategie
mit zu erarbeiten. Die noch von seinem Vorgänger Martin Blessing ausge-
gebenen bisherigen Ziele reichen nur noch bis zum Jahresende. Manche hat
die Bank längst erreicht, andere gelten inzwischen als unerreichbar.
6. Text: Reduktion auf das Wesentliche
Panama Papers - 2,6 TB Daten in Informationen
umwandeln
6 09.09.2016
Eliminieren der Stoppwörter
Stammform-Reduktion („stemming“)
Porter-Stemmer-Algorithmus
KSTEM
N-Gramm-Verfahren
lexikonbasiertes Stemming (Lemmatisierung)
korpusbasiertes Stemming
statistische Verfahren
computerlinguistische Verfahren
Namenserkennung
7. Porter-Stemmer-Algorithmus
Panama Papers - 2,6 TB Daten in Informationen
umwandeln
7 09.09.2016
Bestimmung der Silbenanzahl
Anzahl der Vokal-Konsonant-Sequenzen.
Aufbau der Wörter entspricht Zeichenkette der Form
[C] ( V C )m [V]
Gemessen wird die Anzahl m der Vokal-Konsonanten-Sequenzen
Beispiele:
tr-ee, t-o (m=0)
w-eb, ant (m=1)
b-etw-een (m=2)
W-ik-ip-ed-ia (m=3)
8. Porter-Stemmer-Algorithmus
Panama Papers - 2,6 TB Daten in Informationen
umwandeln
8 09.09.2016
Verkürzungsregeln
Verkürzungsregeln bestehen aus Paaren von Bedingungen und Ableitungen für
verschiedene Suffixe (Wortendungen).
Regeln in Gruppen zusammengefasst; Abarbeitung nacheinander
Nur eine Regel je Gruppe
Beispiel:
1. Gruppe: Suffix-Verkürzungsregeln "sses" → "s", "ies" → "i" und "s" → "„
"libraries" → "librari" und "Wikis" → "Wiki" führen.
2. Gruppe Regel "y" → "i",
"library" → "librari")
9. Aus unstrukturiertem Text strukturierte Daten ableiten
Panama Papers - 2,6 TB Daten in Informationen
umwandeln
9 09.09.2016
Commerzbank: Einschnitte in Firmenkunden-Sparte geplant
Datum: 05.07.2016 14:16 Uhr
Lahmende Kreditnachfrage, Mini-Zinsen und Einschnitte im Mittelstands-
geschäft: Die Commerzbank will ihre Firmenkunden-Sparte verschlanken.
Doch ein reines Sparprogramm hat Chef Martin Zielke wohl nicht im Sinn.
Der neue Commerzbank-Chef Martin Zielke plant wegen mauer Kreditnach-
frage und niedriger Zinsen Einschnitte im Geschäft mit dem Mittelstand. …
„Vorstand Markus Beumer will unter Beweis stellen, dass er die Mittelstands-
bank auf Vordermann bringen kann“, sagte einer der Insider. Beumer hatte
auch als Kandidat für den Chefposten gegolten, den Posten erhielt dann
aber sein Vorstandskollege Zielke, der in den vergangenen Jahren das
Privatkundengeschäft grundlegend saniert hatte. „Dort hat man nicht nur
Stellen gestrichen, sondern auch etwa in die Digitalisierung investiert“, hieß
es in Kreisen des Aufsichtsrats. „Ein reines Sparprogramm wäre nicht das,
wofür man Zielke gewählt hat.“
Digitalisierung, Wachstum und Kosten sind Insidern zufolge die Stellschrau-
ben, an denen er arbeitet. Zielke, der am 1. Mai sein neues Amt angetreten
hatte, habe die Unternehmensberatung McKinsey engagiert, die Strategie
mit zu erarbeiten. Die noch von seinem Vorgänger Martin Blessing ausge-
gebenen bisherigen Ziele reichen nur noch bis zum Jahresende. Manche hat
die Bank längst erreicht, andere gelten inzwischen als unerreichbar.
Commerzbank AG
Markus Beumer
Vorstand
Martin Zielke
Vorstandsvorsitzender
Seit 01.05.2016
Martin Blessing
Vorstandsvorsitzender
Bis 30.04.2016
McKinsey
beauftragt
10. Import nach neo4j (1/2)
Panama Papers - 2,6 TB Daten in Informationen
umwandeln
10 09.09.2016
BEGIN
USING PERIODIC COMMIT 1000
LOAD CSV WITH HEADERS FROM "file:c:DATAKundenDeutsche BankGraphenDBPanamaDatenEntities_bereinigt.csv"
AS line FIELDTERMINATOR ','
CREATE (:ICIJ :Entities{
id : toInt(line.node_id)
, Name : line.name
, Gerichtsstandort: line.jurisdiction_description
, Type : line.company_type
, Adresse : line.address
, FoundedIn : line.incorporation_date
, Deactivation: line.inactivation_date
, Austragung : line.struck_off_date
, ServiceProvider: line.service_provider
, Country : line.countries
, Status : line.status
, Quelle : line.sourceID
})
;
COMMIT
11. Import nach neo4j (2/2)
Panama Papers - 2,6 TB Daten in Informationen
umwandeln
11 09.09.2016
LOAD CSV WITH HEADERS FROM "file:c:DATAKundenDeutsche BankGraphenDBPanamadatenall_edges.csv" AS row
FIELDTERMINATOR ','
MERGE (Von:ICIJ {id: toInt(row.node_1)})
MERGE (Zu:ICIJ {id: toInt(row.node_2)})
FOREACH(n IN CASE WHEN row.rel_type = "1" THEN [1] ELSE [] END | MERGE (Von)-[:AlternateDirectorOf]->(Zu) )
FOREACH(n IN CASE WHEN row.rel_type = "2" THEN [1] ELSE [] END | MERGE (Von)-[:AppointorOf]->(Zu) )
FOREACH(n IN CASE WHEN row.rel_type = "3" THEN [1] ELSE [] END | MERGE (Von)-[:AssistantSecretaryOf]->(Zu) )
FOREACH(n IN CASE WHEN row.rel_type = "4" THEN [1] ELSE [] END | MERGE (Von)-[:AuditorOf]->(Zu) )
…..
12. Die Abfrage-Sprache Cypher
Panama Papers - 2,6 TB Daten in Informationen
umwandeln
12 09.09.2016
Kunde (nat. Person) mit
hohem Geschäftsvolumen
Jur. Person
Motivation: Neukundengewinnung
MATCH (k:Kunde:NatPerson) - [rel1] –> (j:JurPerson) <– [rel2] – (n:NichtKunde) where k.GV = „A“ RETURN *
Nicht-Kunde
13. In Steuer-Oasen ist Schein-Direktor kein
ungewöhnlicher Beruf
Panama Papers - 2,6 TB Daten in Informationen
umwandeln
13 09.09.2016
Leticia Montoya
Entstammt der panamaischen Unterschicht
Spricht so gut wie kein Englisch
Fungierte in den letzten Jahrzehnten als Direktorin mehrerer Zehntausend Firmen
Erhält ca. 500 Euro pro Monat
Mossack-Fonseca erhält ca. 150 Euro pro Jahr und Direktor
2012: Fr. Montoya war Direktorin bei ca. 3.200 Briefkastenfirmen
Kanzlei kassierte halbe Million Euro und bezahlte 6.000 Euro Gehalt
14. In Steuer-Oasen ist Schein-Direktor kein
ungewöhnlicher Beruf
Panama Papers - 2,6 TB Daten in Informationen
umwandeln
14 09.09.2016
Aida May Biggs
Steht / stand ca. 20.000 Unternehmen vor
Arbeitete für einen Konkurrent von Mossack Fonseca
Weitere Quelle zu Frau Biggs: britisches Firmenregister: im Januar 1923 geboren
15. Scheindirektoren im Umfeld der Politik
Panama Papers - 2,6 TB Daten in Informationen
umwandeln
15 09.09.2016
Quelle: http://panamapapers.sueddeutsche.de/
16. Panama Papers - 2,6 TB Daten in Informationen
umwandeln
16 09.09.2016
Live-Demo mit
840.000 Knoten und
1,27 Mio. Kanten
17. Frank Ferro
Program Manager Financial Services
Tel. +49 162 29 10 217
frank.ferro@trivadis.com
09.09.2016
Panama Papers - 2,6 TB Daten in Informationen
umwandeln
17