SlideShare ist ein Scribd-Unternehmen logo
1 von 65
RDBMS oder NoSQL
– warum nicht beides?
München, den 22. Juni 2016
Julian Endres & Daniel Schulz
Public – Company Confidential – Customer Confidential – Sensitive
Die Referenten
Julian Endres
Applications Consultant bei Capgemini
Julian Endres ist Applications Consultant bei Capgemini im Bereich Big Data &
Analytics. Er ist dabei im gesamten BI-Stack mit derzeitigem Fokus auf
Technologien wie Qlik, Tableau, Hadoop und NoSQL-Datenbanken tätig.
Im Bereich der nicht-relationalen Datenbanken widmet er sich besonders der
Marktreife und Einsetzbarkeit von einzelnen Lösungen im Unternehmenskontext
sowie Architekturen im Big-Data-Kontext.
Daniel Schulz
Senior Solution Architect bei Capgemini
Daniel Schulz ist Senior Solution Architect bei Capgemini. Er arbeitet seit fünf
Jahren im Big-Data-Bereich mit besonderem Fokus auf der Automotive-Branche.
Er interessiert sich seit seiner Schulzeit für Statistik, seit dem Studium auch für
Machine Learning und deren Einsatz in der Datenanalyse. Sein besonderes
Interesse gilt Markovmodellen und der Performanceoptimierung von Software
und Datenbanken.
© Capgemini 2016. All Rights Reserved
TDWI-2016-RDBMS-vs-NoSQL-Master.pptx 2
Agenda
© Capgemini 2016. All Rights Reserved
3TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
1. Einführung in NoSQL-Datenbanken
2. Diverse Anwendungsfälle
3. Big-Data-Referenzarchitektur
4. NoSQL-Evaluierungsframework
5. Innovation Dilemma & Résumé
Einführung
NoSQL-Datenbanken – Historie
• RDBMS wurden zwischen den 1960er und 1980er Jahren als Wertschöpfung gegenüber Dateisystemen
eingeführt
• Daten werden in Spalten und Reihen abgespeichert
• Tabellen werden über Primär- und Fremdschlüssel miteinander verknüpft
• RDBMs Vorteile:
• Stellen v.a. Struktur sicher
• Nutzer/Rollen-Konzept und Gewährleistung von Datensicherheit
• Sicherstellung der Konsistenz und Transaktionssicherheit
• Optimierung der Anfrage durch SQL
• und weitere
• dieser Hintergrund ist wichtig
• bei Betrachtung der Entwicklung von NoSQL sowie
• bei Prognosen über die Zukunft des Datenbankenmarktes
© Capgemini 2016. All Rights Reserved
TDWI-2016-RDBMS-vs-NoSQL-Master.pptx 5
NoSQL-Datenbanken
NoSQL = „Not only SQL“
Eine einheitliche Definition existiert nicht.
NoSQL – Datenbanken erfüllen vielmehr charakteristische
Eigenschaften in unterschiedlichem Maße.
Definition
NoSQL-Datenbanken – Begriff
© Capgemini 2016. All Rights Reserved
TDWI-2016-RDBMS-vs-NoSQL-Master.pptx 6
NoSQL-Datenbanken
NoSQL-Datenbanken – Charakteristiken
• Betrieb in verteilten Clusterumgebungen für native horizontale Skalierung
(Partitionierung und Replikation der Daten über mehrere Knoten)
• „Eventual consistency“ / gelockerte Konsistenz: Zugunsten von
Verfügbarkeit und Performance ist die Konsistenz der Daten über die
verteilten Partitionen nicht zu jedem Zeitpunkt sichergestellt.
Eine verteilte Datenbank kann nur zwei der drei Anforderungen von
Konsistenz, Verfügbarkeit und Partitionstoleranz gleichzeitig garantieren.
(CAP-Theorem von Brewer)*
• Gelockerte Schemarestriktionen und unterschiedliche Möglichkeiten der
Datenstrukturierung
• Datenbankspezifische Abfragesprachen und APIs
• Häufig open-source Produkte mit Wurzeln in Web-Firmen
• Polyglotte Architekturen (z.B. zusammen mit Hadoop, RDBMS oder DW)
oft in Big-Data-Lösungen umgesetzt
Consistency
Availability Partition
Tolerance
* Vereinfachte Darstellung. Mehr Informationen: http://www.infoq.com/articles/cap-twelve-years-later-how-the-rules-have-changed
© Capgemini 2016. All Rights Reserved
TDWI-2016-RDBMS-vs-NoSQL-Master.pptx 7
CAP-Theorem
NoSQL-Datenbanken
Fokus von Datenlösungen im Big Data Kontext
© Capgemini 2016. All Rights Reserved
8TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
Velocity
VarietyVolume Hadoop
(HDFS)
NoSQL
Data Warehouses
(OLAP)
In-memory &
event processing tools
Filesysteme
NoSQL-Datenbanken
NoSQL-Datenbanken – Typische fachliche
Anwendungsfälle
© Capgemini 2016. All Rights Reserved
9TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
• Web & Mobile Applikationen (Caching, Leaderboards, Latency kritische Anwendungen, Online
Games, Sessions, Personalisierung)
• Soziale Netzwerke
• Log- und Sensordaten aus dem Internet-of-Things-Bereich (z.B. real-time Tracking von
Maschinendaten)
• Customer 360° View
• Analytics (Datenanalyse, Betrugserkennung, MapReduce)
• … und mehr
NoSQL-Datenbanken
NoSQL-Datenbanken – Typische technische
Anwendungsfälle
© Capgemini 2016. All Rights Reserved
10TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
• Hohes Datenvolumen und lineare Skalierbarkeit
• Einsatz von Commodity Hardware
• Flexible Datenschemata (z.B. Änderungen am Datenmodell in agilen Umfeldern)
• Spezielle Abfragen (z.B. Geoqueries)
• Globale Verteilung der Daten (Replikation)
1 0
0 1 01 0
0 1
0 1
1 1 0
1 0 1 1
0 0 1 1 1 0 1
0 1 0 0 1 1 0 1
1 0 1 0 1 1 0 0
1 0 1 1
NoSQL-Datenbanken
NoSQL-Datenbanken – Datenschemata
Dokumentorientiert
SpaltenorientiertKey-Value
Graph
© Capgemini 2016. All Rights Reserved
TDWI-2016-RDBMS-vs-NoSQL-Master.pptx 11
Relational NoSQL
NoSQL-Datenbanken
Map Reduce: Parallelisierte und verteilte Verarbeitung, bei der Daten
in gruppierte Key-Value Paare aufgeteilt und zusammengeführt (map) und
sortiert (reduce) werden. Dies erfordert häufig speziell auf den
Anwendungsfall abgestimmte Skripte.
Proprietäre Abfragesprachen: Sind dem jeweiligen Datenschema angepasst und um spezifische Funktionen erweitert. Zur
Integration in Systeme werden proprietäre APIs und Frameworks benötigt. Beispiele:
RESTful HTTP Argumente: URL kodierte HTTP Anfragen mittels GET und POST. Austauschformat häufig JSON.
GET http://127.0.0.1:5984/database/document
SQL: Spezifische Übersetzungsframeworks existieren oder Abfragesprachen sind daran angelehnt z.B. CQL von Cassandra.
NoSQL-Datenbanken – Abfragen
© Capgemini 2016. All Rights Reserved
12TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
Bildquelle: https://de.wikipedia.org/wiki/Datei:MapReduce2.svg
Besetzung der Filme beginnend mit ‚T‘ / Graph-DB Neo4j:
db.restaurants.find({ location:
{ $geoWithin:
{ $centerSphere: [ [ -73.93414657, 40.82302903 ],
5 / 3963.2 ]
} } })
MATCH (actor:Person)-[:ACTED_IN]->(movie:Movie)
WHERE movie.title STARTS WITH "T“
RETURN movie.title AS title, collect(actor.name) AS cast
ORDER BY title ASC LIMIT 10;
Restaurants im Umkreis / MongoDB:
NoSQL-Datenbanken
Googles Trend für “NoSQL” – Interesse stieg ~2010 sprunghaft an
Realisierungen könnten zeitlich versetzt nachziehen
© Capgemini 2016. All Rights Reserved
13TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
NoSQL-Datenbanken
Googles Trend für Terme NoSQL & RDBMS
Gezeitenwechsel zwischen RDBMS und NoSQL bei Interesse erkennbar
© Capgemini 2016. All Rights Reserved
14TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
NoSQL-Datenbanken
NoSQL - Datenbanken – Pro & Contra
Pro + Con -
zu viele DB Produkte,
Einsetzbarkeit in
Unternehmen häufig unklar
oft knappe Verfügbarkeit
von erfahrenen Kollegen &
mangelhafte Dokumentation
fehlende Standards,
Abfragesprachen &
Best Practices
gelockerte Konsistenz
Vielfalt an Produkten
oft Lizenz-freie Software
vielfältige und flexible
Datenschemata
native Skalierbarkeit,
hohe Performance &
Fehlerresistenz
© Capgemini 2016. All Rights Reserved
TDWI-2016-RDBMS-vs-NoSQL-Master.pptx 15
NoSQL-Datenbanken
Knowledge-Management für
Automotive-Wissenschaft
Vision des Kunden war Übersicht in großem Dokumentenfundus
Ziel war schnelles Finden von R&D-Papern nach Schlagwörtern & Inhaltsbeziehungen in Automotivedomäne
© Capgemini 2016. All Rights Reserved
18TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
• Parsen, Indizierung und Persistieren von Forschungsberichten aus Automobilbau
• Finden von Dokumenten nach Suchtermen
• Graph von untereinander abhängigen Dokumenten
• Aufdecken von inhaltlichen Beziehungen – sog. „Content-derived Metadata“, wie
• Autoren,
• Forschungsfeldern,
• Abteilungen,
• explizite Referenzen und inhaltliche, implizite Verweise,
• zeitliche Abhängigkeiten,
• etc.
Anwendungsfälle
Knowledge-Management
für Automotive-Wissenschaft
Data Hub kommt ohne RDBMS zur Steicherung aus
Ziel war schnelles Finden von Wissenschaftspapern nach Schlagwörtern und Inhaltsbeziehungen für R&D
© Capgemini 2016. All Rights Reserved
19TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
menschliche Anwender
Dokumente
Data Hub
Anwendungsfälle
Knowledge-Management
für Automotive-Wissenschaft
Lessons Learned
© Capgemini 2016. All Rights Reserved
20TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
Hadoop ist
• günstiger, skalierbarer, ausfall-sicherer Massenspeicher
• mächtiges Framework zur Speicherung von riesigen Mengen an Rohdaten  als OLAP-System
• entscheidendes Bottleneck war damals Nahe-Echtzeitanfrage der Daten  kein OLTP-System
• relativ komplex – auch damals, als es deutlich weniger Komponenten dafür gab
• weniger Anwender-freundlich als BI-Tools
Anwendungsfälle
Knowledge-Management
für Automotive-Wissenschaft
Rechencluster für Vorhersagen,
Applikationen & Automotive-Simulationen
Automotive-Kunde wollte riesige Datenmenge diverser Struktur verarbeiten können
Lösung ist Data Lake: RDBMS + NoSQL-System
• gesucht ist
• skalierbares, ausfallsicheres, hoch-performantes System,
• günstigem Massenspeicher für Rohdaten,
• auch mit Tabellen-artiger Struktur,
• mit geringen, laufenden Kosten,
• welches weitestgehend zukunftssicher für kommende 30 Jahre ist
• Anforderungen für eine zentrale Umgebung v.a. für
• Sales-Prognosen,
• Aftersales-Analysen,
• Simulationen für operative Planungen,
• Datenimport von diversen, bestehenden, internen und externen Datenquellen sowie
• generische Möglichkeit Applikationen auf eigenem Datenbestand auszuführen
© Capgemini 2016. All Rights Reserved
TDWI-2016-RDBMS-vs-NoSQL-Master.pptx 22
Anwendungsfälle
Rechencluster für Vorhersagen,
Applikationen & Automotive-Simulationen
Job-Offloading: RDBMS schickt große Datenmengen zur Aggregation
in Hive ans Hadoop; Datenfluss mit Sqoop realisiert
Datenmengen zu groß für Auswertung in RDBMS – daher Auswertung in skalierbarem Hadoop-System
TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
Anwendungsfälle
Rechencluster für Vorhersagen,
Applikationen & Automotive-Simulationen
Aggregate
Detaildaten
© Capgemini 2016. All Rights Reserved
23
Ausführung eigenen Java-Codes auf Spark auf Detaildaten
in Hadoops HDFS
System kann MPP-ähnlich beliebige Algorithmen in Spark, YARN und MapReduce ausführen
TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
Anwendungsfälle
Rechencluster für Vorhersagen,
Applikationen & Automotive-Simulationen
Aggregate
Detaildaten
Teilevorhersagen
© Capgemini 2016. All Rights Reserved
24
Hadoop-Plattform zur Speicherung von Daten sowie zur
Ausführung von Applikationen & Algorithmen darauf
Oozie steuert gesamten Datenfluss (ETL) und Ausführung der Applikationen & Algorithmen
TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
Anwendungsfälle
Rechencluster für Vorhersagen,
Applikationen & Automotive-Simulationen
Aggregate
Detaildaten
Teilevorhersagen
© Capgemini 2016. All Rights Reserved
25
Anwender können mittels BI-Tool Tableau auf Daten in RDBMS und
Hadoop zugreifen — Data Lake fühlt sich an, wie ein Datenpool
arbeiten i.d.R. auf RDBMS, da Antworten in Naheechtzeit; Drill-Through referenzierte Daten im Hadoop
deutlich langsamer (im Minutenbereich) dafür Arbeit auf riesigen Datenmengen (Terabyte-Bereich) möglich
TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
menschliche Anwender
Anwendungsfälle
Rechencluster für Vorhersagen,
Applikationen & Automotive-Simulationen
Aggregate
Detaildaten
Teilevorhersagen
© Capgemini 2016. All Rights Reserved
26
Externe Quellsysteme können Daten in Streams und
Batches einfügen
alle Datenformate sind beliebig strukturierbar, da Hadoops HDFS ein Rohdatenspeicher ist
TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
menschliche Anwender
Anwendungsfälle
Rechencluster für Vorhersagen,
Applikationen & Automotive-Simulationen
Aggregate
Detaildaten
Teilevorhersagen
© Capgemini 2016. All Rights Reserved
27
Weitere Evolution dieses Data Lake’s nutzt
diverse RDBMS-Quellsysteme & NoSQL-Systeme
RDBMS und NoSQL sollen jeweilige Stärken ausspielen
© Capgemini 2016. All Rights Reserved
28TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
einige menschliche &
viele technische Anwender
beigestelltes,
erweiterndes RDBMS
zum Data Lake
RDBMS-Quellsysteme
Data Lake
Anwendungsfälle
Rechencluster für Vorhersagen,
Applikationen & Automotive-Simulationen
Lessons Learned
kritisch beim Einsatz von Hadoop und Cassandra
© Capgemini 2016. All Rights Reserved
29TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
Hadoop
• ist immer noch relativ komplex
• ist weniger Anwender-freundlich als BI-Tools
• sehr gute Integration von Tableau in Hadoop und Cassandra
• gute Integration in DWH-Systeme
• ist deutliche Schwierigkeiten es Datenschutz-konform zu betreiben
• ist deutlich langsamer als Cassandra in Beantwortung von Anfragen durch Latenz im Master/Slave-Design
Anwendungsfälle
Rechencluster für Vorhersagen,
Applikationen & Automotive-Simulationen
Lessons Learned
weitere Aspekte von Hadoop und Cassandra
© Capgemini 2016. All Rights Reserved
30TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
Hadoop
• ist günstiger, skalierbarer, ausfall-sicherer, durchgehend verfügbarer Massenspeicher
• ist mächtiges Framework zur Speicherung von riesigen Mengen an Rohdaten  als OLAP-System
• Caches, Datenbanken und Komponenten ermöglichen auch Nahe-Echtzeitanfragen  als OLTP-System
• Komponenten, wie Hive, Impala & Spark SQL, ermöglichen
• nahezu den Ersatz eines DWH durch Hadoop
• Job-Offloading vom DWH nach Hadoop
• ist relativ Linux-affin in Nutzung
Cassandra
• benötigt vorher bekanntes Schema und mglw. Spiegeltabellen je Anfragemuster
 führt mglw. zu doppelter Replikation der Daten:
• Replikationsfaktor im Design und
• Spiegeltabellen / Materialisierte Sichten auf Anwendungsebene
• ist relativ Linux-affin in Nutzung
Anwendungsfälle
Rechencluster für Vorhersagen,
Applikationen & Automotive-Simulationen
Qualitätssicherung auf Geodaten
Vision des Kunden
• Auswertung von Massenpositionsdaten aus GPS-Signalen
• Geräte aus ganzem Monitoringgebiet liefern Daten an ein zentrales System über Mobilfunknetze
• Nachverfolgung aller Bewegungen aller Geräte kurzfristig möglich
• Auswertung tabellenartiger und graphenartiger Daten
• Anwendung von Advanced-Analytics- resp. Machine-Learning-Methoden auf gesamtem Datenbestand und seiner
Historie
• Kunde war Neueinsteiger in Big-Data-Analysen
© Capgemini 2016. All Rights Reserved
TDWI-2016-RDBMS-vs-NoSQL-Master.pptx 32
Anwendungsfälle Qualitätssicherung auf Geodaten
Eingehende Daten sind…
• 1 TB bis 10 TB je Tag
• OLAP-Analysen in ¼-Stunden-Batches
• strukturiert oder unstrukturiert im Binärformat
• ungleich verteilt
• Datenlieferungen durch vier Systeme, teilweise voneinander abhängige und unabhängige Systeme
Der Speicher- & Rechencluster ist in jedem Knoten
datenlokal aufgebaut
Ring-Architektur mit deckungsgleichem, datenlokalem Spark-Verbund
© Capgemini 2016. All Rights Reserved
33TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
Ausführungsschicht
Datenhaltung
Anwendungsfälle Qualitätssicherung auf Geodaten
Datenfluss von den Quellen zur Qualitätssicherung
Datenhaltung in bestenfalls zwei verbundenen Spark-on-Cassandra-Ringen zur Analyse
© Capgemini 2016. All Rights Reserved
34TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
Vorverarbeitung
OLTP-Ring
für hohen Data Ingest
Sensordaten von
Transportmitteln
OLAP-Ring für
Data Science
GPS-Daten
Anwendungsfälle Qualitätssicherung auf Geodaten
Austausch mit RDBMS
Sqoop überträgt Daten bidirektional zw. Relationalen Datenbanken und Cassandra
© Capgemini 2016. All Rights Reserved
35TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
Datenintegration
Ausführungsschicht
Datenhaltung
RDBMS
Anwendungsfälle Qualitätssicherung auf Geodaten
Zugriffsschicht für Datenanalysten
Nutzung von SQL, R, Python, SQL, Scala und Java möglich
© Capgemini 2016. All Rights Reserved
36TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
Analyselayer
Ausführungsschicht
Datenhaltung
Datenanalyst
Zeppelin
Anwendungsfälle Qualitätssicherung auf Geodaten
Abschied von Oracle
Oracle-ähnliche Technologie gesucht
• Oracle bei Kunden weitestgehend gesetzte, erprobte Technologie
• Cassandra sehr viel ähnlicher als Hadoop zu Oracle-Lösungen
• SQL-Developer  DevCenter
• Enterprise Manager  OpsCenter
• u.a. Backup-Verfahren, Nutzer/Rechte/Rollen-Konzept, PreparedStatements sehr ähnlich zu Oracle
• Umstellungen im Detail
© Capgemini 2016. All Rights Reserved
TDWI-2016-RDBMS-vs-NoSQL-Master.pptx 37
Anwendungsfälle Qualitätssicherung auf Geodaten
Aufbau Spark-on-Cassandra-Cluster
Cassandra bevorzugte Wahl gegenüber Oracle und Hadoop
© Capgemini 2016. All Rights Reserved
38TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
• Cassandra bevorzugte Datenbank durch Einfachheit
• Distribution DSE (DataStax Enterprise) enthält viele Machine-Learning-Lösungen aus Hadoop-Distributionen
• schlanker, schneller und mächtiger Technologiestack
• Aufbau Cluster mit 1 aktivem & 1 passivem Ring – synchronisieren sich fortlaufend gegenseitig
Anwendungsfälle Qualitätssicherung auf Geodaten
Aufbau Netzwerktopologie der Speicher- & Rechenknoten
über Rechenzentren und Umgebungen
© Capgemini 2016. All Rights Reserved
39TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
Sampledaten bei Bedarf
Produktion mit
Standby-Cluster
24/7 automatische
Synchronisation der
Daten zweier
Rechenzentren
Data Science
& Entwicklung
24/7 automatische
Synchronisation der
Daten zweier
Rechenzentren
Quell-
systeme
Anwendungsfälle Qualitätssicherung auf Geodaten
Lessons Learned – so far
kritisch bei Einsatz von NoSQL
© Capgemini 2016. All Rights Reserved
40TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
vor allem Cassandra und HBase
• können oft ähnlich hohes Datenschutzlevel erreichen, wie RDBMS
• erfordern damit auch Kenntnis der Zugriffsmuster auf Daten – vor Realisierungsbeginn
• erfordern oftmals Commodity-Hardware – Netzwerkspeicher, wie SAN oder NAS, kann ein Antipattern sein
DSE als Big-Data-Distribution ist
• weniger komplex als Hadoop, da nur relevanteste Komponenten für Data Science enthalten sind
• deutlich einfacher Datenschutz-konform bettreibbar
• strukturierte und umfassende Herangehensweise zur Beurteilung von NoSQL-Datenbanken benötigt
 Lösung folgt gleich
Anwendungsfälle Qualitätssicherung auf Geodaten
Neo4j im UK-Public-Sektor
Neo4j im UK-Public-Sektor
© Capgemini 2016. All Rights Reserved
43TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
Zielsetzung: Erkennung und Visualisierung von Zusammenhängen in Daten
aus externen, internen und kommerziellen Quellen
Anwendergruppen: Experten Datenanalysten (ca. 6 Nutzer), Ermittler (ca.
1000 Nutzer in einem Jahr). Kurze Trainingszeit.
Technologien: Isoliertes, globales Behördennetzwerk, Greenplum
PostgreSQL, Neo4j, Elasticsearch, node.js, nginx, Webapplikation
DB Größe: Millionen von neuen Datensätzen pro Tag
Hardware: Commoditiy, 4 Hexa Core Prozessoren, 128 GB RAM. Keine Cloud
Umgebung.
Anwendungsfälle Neo4j im UK-Public-Sektor
POLE: Party, Object, Location, Event
© Capgemini 2016. All Rights Reserved
44TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
POLE enthält alle Objekte und ihre Verbindungen.
Party: Logische Repräsentation eines Individuums
Object: Logische Repräsentation eines physischen Objekts
Location: Logische Repräsentation einer Ortes
Event: Logische Repräsentation eines Ereignisses
Party
Object Location
Event
MATCH
(P1:person {name:’John’})-[R1:goes_to]->(L1:’conference’)
RETURN L1;
Anwendungsfälle Neo4j im UK-Public-Sektor
POLE: Party, Object, Location, Event in RDBMS
© Capgemini 2016. All Rights Reserved
45TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
Atomare Rohdaten
werden erhalten
Daten werden
transformiert und in
POLE geladen
Atomare
Daten
POLE
Datenhaltung
Daten
Matching
(MDM)
Daten
Quellen
LandingArea
AnalytischeDatenin
MPPDatenbank
(Greenplum)
Semantischer
Layer
(virtuelle Views)
POLE
Party Object Location Event
EL ETL Views
Anwendungsfälle Neo4j im UK-Public-Sektor
CSV, TXT, XLS, Oracle, SQL
CentOS Development Server 2
Architektur
© Capgemini 2016. All Rights Reserved
46TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
Staging
CentOS Development Server 1
Web Front End
CSVs
POLE subset
POLE Verbindungen POLE Attribute
JSON
DI Studio
Anwendungsfälle Neo4j im UK-Public-Sektor
Herausforderungen
© Capgemini 2016. All Rights Reserved
47TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
POLE reduziert Entwicklungszeit und Fehleranfälligkeit und ist einfach verständlich, da die Komplexität nicht mit der
Datentiefe oder Datenbreite zunimmt.
Es gibt aber viele POLE Objekte als Duplikate. Diese müssen zusammengeführt werden.
Hierfür wird ein probabilistisches Abgleichungsverfahren eingesetzt. Das Verfahren vergleicht viele Charakteristiken
der Objekte und errechnet einen Übereinstimmungswert. Die Regeln zur Berechnung können von einem Algorithmus
basierend auf allen Datensätzen bestimmt werden.
Ähnlich einem Gerichtsverfahren beurteilen die Regeln ( = Richter) unabhängig voneinander und kommen zu einer
gemeinsamen Entscheidung.
„Namen-Richter“ „Tel. Nr.-Richter“ „Teilnehmer-ID Richter“
Record 1
Name: Tom K. Klausen
Tel. Nr. (089) 872-1277
Teilnehmer-ID 872312318
Record 2
Name: Thomas Klaussen
Tel. Nr. (089) 872-1727
Teilnehmer-ID 872412318
Anwendungsfälle Neo4j im UK-Public-Sektor
Datenhaltung
© Capgemini 2016. All Rights Reserved
48TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
• GreenPlum
• Enthält als relationale Datenbank alle Daten.
• Es ist sehr ineffizient Verbindungen zwischen Datenobjekten zu
finden da mehrere Joins nötig wären. Eine „real-time“ Performance
wäre nicht gegeben.
• Neo4J:
• Ist ideal zur Identifizierung von Verbindungen zwischen Objekten.
• Auch die Skalierung wird als sehr gut empfunden.
• Daten werden zwischen den Server repliziert. Eine Partitionierung
findet nicht statt.
• Herausforderung: Automatisches, zeitbezogenes Löschen von
Daten.
• Um verschiedene Sichten auf die Daten zu ermöglichen muss die
Graphdatenbank dupliziert werden.
• Für eine Freitextsuche ist Neo4j nicht ideal. Hierfür wird Elasticsearch
verwendet.
Anwendungsfälle Neo4j im UK-Public-Sektor
Lessons-Learned
© Capgemini 2016. All Rights Reserved
49TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
NoSQL-Datenbanken…
• sind i.d.R. stark wo RDBMS schwach sind – Marktnische muss für das Produkt existieren
• hybrider Technologiestack kann Vorteile beider Systeme gewinnbringend nutzen
• ein Datenmodell und Datenschema sind immer noch unerlässlich
• RDBMS haben häufig Vorteile im Bereich der Sicherheit (Authentifizierung & Autorisierung)
Anwendungsfälle Neo4j im UK-Public-Sektor
Big-Data-Referenz-Architektur
Big-Data-Referenz-Architektur
© Capgemini 2016. All Rights Reserved
51TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
• Zweck ist es existierende, interne und externe Architekturentwürfe im Big Data Umfeld zu
konsolidieren.
• Die standardisierte Architektur dient als Vorlage für globale Big Data Projekte von
Capgemini.
• Sie listet die wichtigsten Bausteine für Big Data Architekturen auf.
• Sie vermittelt einen breiten und umfassenden Blick auf die Fragestellungen im Big Data
Umfeld und adressiert alle Stakeholder wie Endanwender, IT-Architekten, Data Scientists
und Entwickler in drei verschiedenen Sichten.
Big-Data-Referenz-Architektur
Big-Data-Referenz-Architektur — Analytics
© Capgemini 2016. All Rights Reserved
52TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
Der Zweck von Analytics ist es…
 zusätzlichen Wert zu schaffen (value)
 indem basierend auf Erkenntnissen gehandelt wird (insights & act)
 welche aus der Analyse von Informationen gewonnen werden (analyzing
information)
 die auf Datenverarbeitungsprozessen aus verschiedenen Quellen aufbauen
(process & source data)
ValueActInsightAnalyzeInformationProcessSource
data
Data flow
Requirements
Big-Data-Referenz-Architektur
Big-Data-Referenz-Architektur — Technische Sicht
© Capgemini 2016. All Rights Reserved
54TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
Manage
Process
Analyze
Information
Source
data
Data ExplorationReporting
Ad-hoc
Querying
Search,
Retrieval
Structured data
 tables
Unstructured Data
 Text, speech, …
Semistructured data
 JSON, XML, …
Data WarehouseData Asset
Catalog
 Index
 Tags
 Metadata
Data Lake
Analytical
Sandbox
NoSQL databases
Key value
store
Document
store
Column
store
Graph
store
NLP
SQL databases
Row
based
Column
based
Streaming,
Event
Processing
File
system
Analytics
Base
Tables
Data Mining,
Machine Learning
Next Best Action
High level ingestion and data
preparation
Low level
ingestion
ETL/ELT
Adv. Visualization
SQL
SQL
Java
Scala
Python
R
Batch Processing
Data virtualization
Big-Data-Referenz-Architektur
NoSQL-Evaluierungsframework
NoSQL-Evaluierungsframework — Herausforderungen bei
der Beurteilung von NoSQL Datenbanken
© Capgemini 2016. All Rights Reserved
56TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
Herausforderungen
Schnelle
technologische
Veränderungen im
NoSQL Bereich
Benchmarks
häufig von
Herstellern
beeinflusst
Dokumentationen
vernachlässigen
Informationen
Informationen über
weniger populäre
Datenbanken
schwer zugänglich
I/O Benchmarks
als Entscheidungs-
grundlage zu
wenig
NoSQL-Evaluierungsframework
NoSQL-Evaluierungsframework
© Capgemini 2016. All Rights Reserved
57TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
Beispiel für I/O Benchmarks; Yahoo! Cloud Serving Benchmark.
NoSQL Datenbanken werden von den Herstellern häufig nur im Bereich der
Skalierbarkeit und Performance von Lese- und Schreibvorgängen (I/O) verglichen.
NoSQL-Evaluierungsframework
NoSQL-Evaluierungsframework
© Capgemini 2016. All Rights Reserved
58TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
Auf der Suche nach der richtigen NoSQL Datenbank kann man sich nicht nur an I/O
Performance Benchmarks orientieren. Zur umfassenden Bewertung gehören u.a. auch
das Architekturumfeld, die erwarteten Daten oder die nötigen Abfragen.
NoSQL-Evaluierungsframework
NoSQL-Evaluierungsframework — Berechnung des
NoSQL Enterprise Readiness Index (NERI)
© Capgemini 2016. All Rights Reserved
59TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
1 – Anforderungen im
Anwendungsfall bestimmen das
Gewicht einzelner
Evaluierungskriterien
2 – Definition der
Evaluierungskriterien und ihrer
vier Leistungsstufen
3 – Bewertung der
Kriterienerfüllung der
Datenbanken
4 – Summe der gewichteten
Bewertungen ergibt den
vergleichbaren NERI
NoSQL-Evaluierungsframework
NoSQL-Evaluierungsframework — Kriteriencluster
© Capgemini 2016. All Rights Reserved
60TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
Clustername Cluster Kriterien (zusammengefasst)
Globale Kriterien Verfügbarkeit bei verschiedenen Cloud Anbietern; Angebot an Service Levels;
Qualität der Dokumentation; Generelles Interesse am Arbeitsmarkt (Anzahl
an LinkedIn Stellen mit dieser Technologie); Mögliche Kosten
Datenmodell- und Speicherungskriterien Flexibilität des Datenschemas während der Laufzeit; Verfügbarkeit von
verschiedenen Datentypen, von Speichermöglichkeiten (Disk, in-memory) und
Indizes sowie von Kompression; Wege des Datenimports und Begrenzungen in
der Datenbank- und Datensatzgröße.
Laufzeitkriterien (Dev Ops) Authorisierung und Authentifizierung; Backupmöglichkeiten; Logging;
Monitoring des Datenbankzustands (z.B. in einem GUI)
Abfragekriterien Mächtigkeit der Abfragesprache(n) und der APIs; Schnittstellen zu populären
Programmiersprachen; Erfüllung von Konsistenzkriterien
Kriterien zur verteilten Datenhaltung Verfügbarkeit, Konfigurierbarkeit und Ausfalltoleranz der Replikations- und
Partitionierungsmechanismen; Mögliche Hardwareanforderungen
Performanzkritierien Verhalten der Latenz von Lese- und Schreibvorgängen unter sich erhöhender
Last
1 0
0 1 01 0
0 1
0 1
1 1 0
NoSQL-Evaluierungsframework — Beispiel Leistungsstufen
© Capgemini 2016. All Rights Reserved
61TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
Code Kriteriumname Kriterium
Beschreibung
Leistungsstufen
0 – nicht
erfüllt
1 – schlecht
erfüllt
2 – gut erfüllt 3 – sehr gut
erfüllt
CM8 Indizierung Bewertet, ob es
die Möglichkeit
gibt die Daten zu
indizieren.
Keine Indizes
verfügbar.
Nur ein primär
Index ist möglich.
Ein primär und
ein sekundär
Index sind
möglich.
Ein primär und
mehrere
sekundäre
Indizes sind
möglich.
NoSQL-Evaluierungsframework
NoSQL-Evaluierungsframework — Beispiel Ergebnisse
© Capgemini 2016. All Rights Reserved
62TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
0.598
0.413 0.441 0.455
0.356
0.634
0.513 0.518 0.430
0.291
0.484
0.351 0.351
0.238
0.133
0.655
0.442
0.570
0.394
0.309
0.485
0.400
0.371
0.329
0.014
0.144
0.124
0.000
0.048
0.000
0.000
0.500
1.000
1.500
2.000
2.500
3.000
3 NERI 2,243 NERI 2,252 NERI 1,893 NERI 1,104
Possible max.
weighed
Rating
Apache
Cassandra
(2.1.8)
Riak KV (2.0) Redis (3.0.3) Memcached
(1.4.24)
Key-Value Databases
Performance Criteria - CP*
Distributed Database Criteria - CD*
CRUD Query Criteria - CQ*
Run-Time Management Criteria - CR*
Data Model and Storage Criteria - CM*
Global Criteria - CG*
NoSQL-Evaluierungsframework
NoSQL-Evaluierungsframework — Zusammenfassung
© Capgemini 2016. All Rights Reserved
63TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
NoSQL Evaluation Framework
✓ theoriebasiert
✓ umfassend
✓ wiederholbar
✓ anpassbar und erweiterbar
✓ermöglicht eine strukturierte Analyse
✓ gibt eine klare und nachvollziehbare Entscheidung
NoSQL-Evaluierungsframework
Innovators Dilemma
„Disruptive Innovation“ führt zu Technologie- & Marktwechsel –
NoSQL-DBs sind Disruptive Innovationen gegenüber RDBMS
interessant ist vor allem Beispielanwender b da er aus beiden Märkten / Lösungstechnologien wählen kann
© Capgemini 2016. All Rights Reserved
65TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
technischeLeistung
Zeit
Beispiele wo sich Anwendungsfälle
heute befinden
⦿ a
⦿ b
⦿ c
Innovators Dilemma
Résumé
RDBMS oder NoSQL – wer wird gewinnen?
© Capgemini 2016. All Rights Reserved
69TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
Gewinner sind die jeweiligen Anwender mit
sinnvollen NoSQL-Anwendungsfällen –
schon heute
Wir beantworten
gerne Ihre Fragen!
Ihre Fragen?
© Capgemini 2016. All Rights Reserved
70TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
The information contained in this presentation is proprietary.
Copyright © 2015 Capgemini. All rights reserved.
www.capgemini.com
About Capgemini
Mit 180.000 Mitarbeitern in über 40 Ländern ist Capgemini einer
der weltweit führenden Anbieter von Management- und IT-
Beratung, Technologie-Services sowie Outsourcing-
Dienstleistungen. Im Jahr 2014 betrug der Umsatz der
Capgemini-Gruppe 10,573 Milliarden Euro.
Gemeinsam mit seinen Kunden entwickelt Capgemini Geschäfts-,
Technologie- sowie Digitallösungen, die auf die individuellen
Kundenanforderungen zugeschnitten sind. Damit sollen
Innovationen ermöglicht sowie die Wettbewerbsfähigkeit gestärkt
werden. Als multinationale Organisation und mit seinem
weltweiten Liefermodell Rightshore® zeichnet sich Capgemini
durch seine besondere Art der Zusammenarbeit aus – die
Collaborative Business ExperienceTM.
Erfahren Sie mehr unter http://www.de.capgemini.com.

Weitere ähnliche Inhalte

Was ist angesagt?

Data modeling for the business 09282010
Data modeling for the business  09282010Data modeling for the business  09282010
Data modeling for the business 09282010
ERwin Modeling
 
Master Data Management
Master Data ManagementMaster Data Management
Master Data Management
Sabir Akhtar
 
Integrating Big Data Technologies
Integrating Big Data TechnologiesIntegrating Big Data Technologies
Integrating Big Data Technologies
DATAVERSITY
 
MongoDB Schema Design (Richard Kreuter's Mongo Berlin preso)
MongoDB Schema Design (Richard Kreuter's Mongo Berlin preso)MongoDB Schema Design (Richard Kreuter's Mongo Berlin preso)
MongoDB Schema Design (Richard Kreuter's Mongo Berlin preso)
MongoDB
 
MDM Strategy & Roadmap
MDM Strategy & RoadmapMDM Strategy & Roadmap
MDM Strategy & Roadmap
victorlbrown
 

Was ist angesagt? (20)

DAMA International DMBOK V2 - Comparison with V1
DAMA International DMBOK V2 - Comparison with V1DAMA International DMBOK V2 - Comparison with V1
DAMA International DMBOK V2 - Comparison with V1
 
Data modeling for the business 09282010
Data modeling for the business  09282010Data modeling for the business  09282010
Data modeling for the business 09282010
 
Data modelling 101
Data modelling 101Data modelling 101
Data modelling 101
 
Master Data Management methodology
Master Data Management methodologyMaster Data Management methodology
Master Data Management methodology
 
Strategic Business Requirements for Master Data Management Systems
Strategic Business Requirements for Master Data Management SystemsStrategic Business Requirements for Master Data Management Systems
Strategic Business Requirements for Master Data Management Systems
 
Master Data Management
Master Data ManagementMaster Data Management
Master Data Management
 
Data Modeling & Data Integration
Data Modeling & Data IntegrationData Modeling & Data Integration
Data Modeling & Data Integration
 
Master Data Management
Master Data ManagementMaster Data Management
Master Data Management
 
Integrating Big Data Technologies
Integrating Big Data TechnologiesIntegrating Big Data Technologies
Integrating Big Data Technologies
 
CouchDB
CouchDBCouchDB
CouchDB
 
Unlocking Smart Building Potential with the RealEstateCore Ontology
Unlocking Smart Building Potential with the RealEstateCore OntologyUnlocking Smart Building Potential with the RealEstateCore Ontology
Unlocking Smart Building Potential with the RealEstateCore Ontology
 
Data Warehouse Best Practices
Data Warehouse Best PracticesData Warehouse Best Practices
Data Warehouse Best Practices
 
CouchDB-Lucene
CouchDB-LuceneCouchDB-Lucene
CouchDB-Lucene
 
Couch db
Couch dbCouch db
Couch db
 
MongoDB Schema Design (Richard Kreuter's Mongo Berlin preso)
MongoDB Schema Design (Richard Kreuter's Mongo Berlin preso)MongoDB Schema Design (Richard Kreuter's Mongo Berlin preso)
MongoDB Schema Design (Richard Kreuter's Mongo Berlin preso)
 
Yes zu NoSQL mit MongoDB für .NET-Entwickler
Yes zu NoSQL mit MongoDB für .NET-EntwicklerYes zu NoSQL mit MongoDB für .NET-Entwickler
Yes zu NoSQL mit MongoDB für .NET-Entwickler
 
Etl overview training
Etl overview trainingEtl overview training
Etl overview training
 
Data Governance Roles as the Backbone of Your Program
Data Governance Roles as the Backbone of Your ProgramData Governance Roles as the Backbone of Your Program
Data Governance Roles as the Backbone of Your Program
 
Sample - Data Warehouse Requirements
Sample -  Data Warehouse RequirementsSample -  Data Warehouse Requirements
Sample - Data Warehouse Requirements
 
MDM Strategy & Roadmap
MDM Strategy & RoadmapMDM Strategy & Roadmap
MDM Strategy & Roadmap
 

Andere mochten auch

Ed spark 14 final 2
Ed spark 14 final 2Ed spark 14 final 2
Ed spark 14 final 2
drgdavid
 

Andere mochten auch (20)

Business Data Lake Best Practices
Business Data Lake Best PracticesBusiness Data Lake Best Practices
Business Data Lake Best Practices
 
Blockchain: How the bitcoin technology can change the public sector
Blockchain: How the bitcoin technology can change the public sectorBlockchain: How the bitcoin technology can change the public sector
Blockchain: How the bitcoin technology can change the public sector
 
Back to Basics – Webinar 2: Ihre erste MongoDB-Anwendung
Back to Basics – Webinar 2: Ihre erste MongoDB-AnwendungBack to Basics – Webinar 2: Ihre erste MongoDB-Anwendung
Back to Basics – Webinar 2: Ihre erste MongoDB-Anwendung
 
Das Back to Basics – Webinar 1: Einführung in NoSQL
Das Back to Basics – Webinar 1: Einführung in NoSQLDas Back to Basics – Webinar 1: Einführung in NoSQL
Das Back to Basics – Webinar 1: Einführung in NoSQL
 
Shared service centers - the future of enterprise service management - SEE 2016
Shared service centers - the future of enterprise service management - SEE 2016Shared service centers - the future of enterprise service management - SEE 2016
Shared service centers - the future of enterprise service management - SEE 2016
 
Leading a Digital Business with Greater Agility: How to Plan a Modern Portfol...
Leading a Digital Business with Greater Agility: How to Plan a Modern Portfol...Leading a Digital Business with Greater Agility: How to Plan a Modern Portfol...
Leading a Digital Business with Greater Agility: How to Plan a Modern Portfol...
 
The latest in Retain & GWAVA
The latest in Retain & GWAVAThe latest in Retain & GWAVA
The latest in Retain & GWAVA
 
Beratungsunternehmen und Agilität - Manage Agile 2016
Beratungsunternehmen und Agilität - Manage Agile 2016Beratungsunternehmen und Agilität - Manage Agile 2016
Beratungsunternehmen und Agilität - Manage Agile 2016
 
IT Governance Framework
IT Governance FrameworkIT Governance Framework
IT Governance Framework
 
Redrawing Org Charts; Rethinking Organizational Boundaries: Opportunities for...
Redrawing Org Charts; Rethinking Organizational Boundaries: Opportunities for...Redrawing Org Charts; Rethinking Organizational Boundaries: Opportunities for...
Redrawing Org Charts; Rethinking Organizational Boundaries: Opportunities for...
 
Shared Services Operating Models
Shared Services Operating ModelsShared Services Operating Models
Shared Services Operating Models
 
Shared services centers sector 2016
Shared services centers sector 2016Shared services centers sector 2016
Shared services centers sector 2016
 
Monitoring distributed (micro-)services
Monitoring distributed (micro-)servicesMonitoring distributed (micro-)services
Monitoring distributed (micro-)services
 
Initiating IT Governance Strategy to Identify Business Needs
Initiating IT Governance Strategy to Identify Business NeedsInitiating IT Governance Strategy to Identify Business Needs
Initiating IT Governance Strategy to Identify Business Needs
 
Supply Chain Management
Supply Chain ManagementSupply Chain Management
Supply Chain Management
 
Leben 4.0: Künstliche Intelligenz und der Weg in die Datengesellschaft. Vortr...
Leben 4.0: Künstliche Intelligenz und der Weg in die Datengesellschaft. Vortr...Leben 4.0: Künstliche Intelligenz und der Weg in die Datengesellschaft. Vortr...
Leben 4.0: Künstliche Intelligenz und der Weg in die Datengesellschaft. Vortr...
 
slideshare
slideshareslideshare
slideshare
 
โต้วาที
โต้วาทีโต้วาที
โต้วาที
 
Priekules seniunija
Priekules seniunijaPriekules seniunija
Priekules seniunija
 
Ed spark 14 final 2
Ed spark 14 final 2Ed spark 14 final 2
Ed spark 14 final 2
 

Ähnlich wie RDBMS oder NoSQL – warum nicht beides?

sones NoSQL GraphDatenbank für Bilderportale
sones NoSQL GraphDatenbank für Bilderportalesones NoSQL GraphDatenbank für Bilderportale
sones NoSQL GraphDatenbank für Bilderportale
sones GmbH
 
Kickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen HochschulbibliothekenKickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
LydiaU
 
AMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
AMSL Kick-off-Meeting sächsischer HochschulbibliothekenAMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
AMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
Björn Muschall
 
Whitepaper sones GraphDB (ger)
Whitepaper sones GraphDB (ger)Whitepaper sones GraphDB (ger)
Whitepaper sones GraphDB (ger)
sones GmbH
 

Ähnlich wie RDBMS oder NoSQL – warum nicht beides? (20)

Cloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von MetadatenCloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von Metadaten
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data Konnektivität
 
Moderne & flexible Architektur mit BW/4HANA
Moderne & flexible Architektur mit BW/4HANAModerne & flexible Architektur mit BW/4HANA
Moderne & flexible Architektur mit BW/4HANA
 
A NoSQL Summer - The Year After
A NoSQL Summer - The Year AfterA NoSQL Summer - The Year After
A NoSQL Summer - The Year After
 
20171121_DOAGKonferenz_JSON_OracleNoSQL_KPatenge
20171121_DOAGKonferenz_JSON_OracleNoSQL_KPatenge20171121_DOAGKonferenz_JSON_OracleNoSQL_KPatenge
20171121_DOAGKonferenz_JSON_OracleNoSQL_KPatenge
 
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
 
Geänderte Anforderungen an eine Data-Warehouse-Landschaft
Geänderte Anforderungen an eine Data-Warehouse-LandschaftGeänderte Anforderungen an eine Data-Warehouse-Landschaft
Geänderte Anforderungen an eine Data-Warehouse-Landschaft
 
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)
 
sones NoSQL GraphDatenbank für Bilderportale
sones NoSQL GraphDatenbank für Bilderportalesones NoSQL GraphDatenbank für Bilderportale
sones NoSQL GraphDatenbank für Bilderportale
 
Datenbanken - Eine Übersicht (WPMeetUP München)
Datenbanken - Eine Übersicht (WPMeetUP München)Datenbanken - Eine Übersicht (WPMeetUP München)
Datenbanken - Eine Übersicht (WPMeetUP München)
 
Information Mining zur semantischen Anreicherung von bestehenden Content-Mana...
Information Mining zur semantischen Anreicherung von bestehenden Content-Mana...Information Mining zur semantischen Anreicherung von bestehenden Content-Mana...
Information Mining zur semantischen Anreicherung von bestehenden Content-Mana...
 
Big Data Appliances
Big Data AppliancesBig Data Appliances
Big Data Appliances
 
Kickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen HochschulbibliothekenKickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
 
AMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
AMSL Kick-off-Meeting sächsischer HochschulbibliothekenAMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
AMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
 
Whitepaper sones GraphDB (ger)
Whitepaper sones GraphDB (ger)Whitepaper sones GraphDB (ger)
Whitepaper sones GraphDB (ger)
 
SQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die Cloud
SQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die CloudSQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die Cloud
SQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die Cloud
 
Not only SQL - CouchDB und andere NoSQL-Datenbanken
Not only SQL - CouchDB und andere NoSQL-DatenbankenNot only SQL - CouchDB und andere NoSQL-Datenbanken
Not only SQL - CouchDB und andere NoSQL-Datenbanken
 
Oracle Database 12c Release 2
Oracle Database 12c Release 2 Oracle Database 12c Release 2
Oracle Database 12c Release 2
 
Überblick zu Oracle Database 12c Release 2
Überblick zu Oracle Database 12c Release 2Überblick zu Oracle Database 12c Release 2
Überblick zu Oracle Database 12c Release 2
 
Codd & ACID - ein Ausflug in die Datenbank-Theorie und Geschichte
Codd & ACID - ein Ausflug in die Datenbank-Theorie und GeschichteCodd & ACID - ein Ausflug in die Datenbank-Theorie und Geschichte
Codd & ACID - ein Ausflug in die Datenbank-Theorie und Geschichte
 

Mehr von Capgemini

Commercial Banking Trends book 2022
Commercial Banking Trends book 2022Commercial Banking Trends book 2022
Commercial Banking Trends book 2022
Capgemini
 
Top Trends in Payments 2022
Top Trends in Payments 2022Top Trends in Payments 2022
Top Trends in Payments 2022
Capgemini
 
Top Trends in Wealth Management 2022
Top Trends in Wealth Management 2022Top Trends in Wealth Management 2022
Top Trends in Wealth Management 2022
Capgemini
 
Retail Banking Trends book 2022
Retail Banking Trends book 2022Retail Banking Trends book 2022
Retail Banking Trends book 2022
Capgemini
 
Top Trends in Commercial Banking: 2021
Top Trends in Commercial Banking: 2021Top Trends in Commercial Banking: 2021
Top Trends in Commercial Banking: 2021
Capgemini
 
Top Trends in Retail Banking: 2021
Top Trends in Retail Banking: 2021Top Trends in Retail Banking: 2021
Top Trends in Retail Banking: 2021
Capgemini
 
Top Trends in Retail Banking: 2020
Top Trends in Retail Banking: 2020Top Trends in Retail Banking: 2020
Top Trends in Retail Banking: 2020
Capgemini
 

Mehr von Capgemini (20)

Top Healthcare Trends 2022
Top Healthcare Trends 2022Top Healthcare Trends 2022
Top Healthcare Trends 2022
 
Top P&C Insurance Trends 2022
Top P&C Insurance Trends 2022Top P&C Insurance Trends 2022
Top P&C Insurance Trends 2022
 
Commercial Banking Trends book 2022
Commercial Banking Trends book 2022Commercial Banking Trends book 2022
Commercial Banking Trends book 2022
 
Top Trends in Payments 2022
Top Trends in Payments 2022Top Trends in Payments 2022
Top Trends in Payments 2022
 
Top Trends in Wealth Management 2022
Top Trends in Wealth Management 2022Top Trends in Wealth Management 2022
Top Trends in Wealth Management 2022
 
Retail Banking Trends book 2022
Retail Banking Trends book 2022Retail Banking Trends book 2022
Retail Banking Trends book 2022
 
Top Life Insurance Trends 2022
Top Life Insurance Trends 2022Top Life Insurance Trends 2022
Top Life Insurance Trends 2022
 
キャップジェミニ、あなたの『RISE WITH SAP』のパートナーです
キャップジェミニ、あなたの『RISE WITH SAP』のパートナーですキャップジェミニ、あなたの『RISE WITH SAP』のパートナーです
キャップジェミニ、あなたの『RISE WITH SAP』のパートナーです
 
Property & Casualty Insurance Top Trends 2021
Property & Casualty Insurance Top Trends 2021Property & Casualty Insurance Top Trends 2021
Property & Casualty Insurance Top Trends 2021
 
Life Insurance Top Trends 2021
Life Insurance Top Trends 2021Life Insurance Top Trends 2021
Life Insurance Top Trends 2021
 
Top Trends in Commercial Banking: 2021
Top Trends in Commercial Banking: 2021Top Trends in Commercial Banking: 2021
Top Trends in Commercial Banking: 2021
 
Top Trends in Wealth Management: 2021
Top Trends in Wealth Management: 2021Top Trends in Wealth Management: 2021
Top Trends in Wealth Management: 2021
 
Top Trends in Payments: 2021
Top Trends in Payments: 2021Top Trends in Payments: 2021
Top Trends in Payments: 2021
 
Health Insurance Top Trends 2021
Health Insurance Top Trends 2021Health Insurance Top Trends 2021
Health Insurance Top Trends 2021
 
Top Trends in Retail Banking: 2021
Top Trends in Retail Banking: 2021Top Trends in Retail Banking: 2021
Top Trends in Retail Banking: 2021
 
Capgemini’s Connected Autonomous Planning
Capgemini’s Connected Autonomous PlanningCapgemini’s Connected Autonomous Planning
Capgemini’s Connected Autonomous Planning
 
Top Trends in Retail Banking: 2020
Top Trends in Retail Banking: 2020Top Trends in Retail Banking: 2020
Top Trends in Retail Banking: 2020
 
Top Trends in Life Insurance: 2020
Top Trends in Life Insurance: 2020Top Trends in Life Insurance: 2020
Top Trends in Life Insurance: 2020
 
Top Trends in Health Insurance: 2020
Top Trends in Health Insurance: 2020Top Trends in Health Insurance: 2020
Top Trends in Health Insurance: 2020
 
Top Trends in Payments: 2020
Top Trends in Payments: 2020Top Trends in Payments: 2020
Top Trends in Payments: 2020
 

RDBMS oder NoSQL – warum nicht beides?

  • 1. RDBMS oder NoSQL – warum nicht beides? München, den 22. Juni 2016 Julian Endres & Daniel Schulz Public – Company Confidential – Customer Confidential – Sensitive
  • 2. Die Referenten Julian Endres Applications Consultant bei Capgemini Julian Endres ist Applications Consultant bei Capgemini im Bereich Big Data & Analytics. Er ist dabei im gesamten BI-Stack mit derzeitigem Fokus auf Technologien wie Qlik, Tableau, Hadoop und NoSQL-Datenbanken tätig. Im Bereich der nicht-relationalen Datenbanken widmet er sich besonders der Marktreife und Einsetzbarkeit von einzelnen Lösungen im Unternehmenskontext sowie Architekturen im Big-Data-Kontext. Daniel Schulz Senior Solution Architect bei Capgemini Daniel Schulz ist Senior Solution Architect bei Capgemini. Er arbeitet seit fünf Jahren im Big-Data-Bereich mit besonderem Fokus auf der Automotive-Branche. Er interessiert sich seit seiner Schulzeit für Statistik, seit dem Studium auch für Machine Learning und deren Einsatz in der Datenanalyse. Sein besonderes Interesse gilt Markovmodellen und der Performanceoptimierung von Software und Datenbanken. © Capgemini 2016. All Rights Reserved TDWI-2016-RDBMS-vs-NoSQL-Master.pptx 2
  • 3. Agenda © Capgemini 2016. All Rights Reserved 3TDWI-2016-RDBMS-vs-NoSQL-Master.pptx 1. Einführung in NoSQL-Datenbanken 2. Diverse Anwendungsfälle 3. Big-Data-Referenzarchitektur 4. NoSQL-Evaluierungsframework 5. Innovation Dilemma & Résumé
  • 5. NoSQL-Datenbanken – Historie • RDBMS wurden zwischen den 1960er und 1980er Jahren als Wertschöpfung gegenüber Dateisystemen eingeführt • Daten werden in Spalten und Reihen abgespeichert • Tabellen werden über Primär- und Fremdschlüssel miteinander verknüpft • RDBMs Vorteile: • Stellen v.a. Struktur sicher • Nutzer/Rollen-Konzept und Gewährleistung von Datensicherheit • Sicherstellung der Konsistenz und Transaktionssicherheit • Optimierung der Anfrage durch SQL • und weitere • dieser Hintergrund ist wichtig • bei Betrachtung der Entwicklung von NoSQL sowie • bei Prognosen über die Zukunft des Datenbankenmarktes © Capgemini 2016. All Rights Reserved TDWI-2016-RDBMS-vs-NoSQL-Master.pptx 5 NoSQL-Datenbanken
  • 6. NoSQL = „Not only SQL“ Eine einheitliche Definition existiert nicht. NoSQL – Datenbanken erfüllen vielmehr charakteristische Eigenschaften in unterschiedlichem Maße. Definition NoSQL-Datenbanken – Begriff © Capgemini 2016. All Rights Reserved TDWI-2016-RDBMS-vs-NoSQL-Master.pptx 6 NoSQL-Datenbanken
  • 7. NoSQL-Datenbanken – Charakteristiken • Betrieb in verteilten Clusterumgebungen für native horizontale Skalierung (Partitionierung und Replikation der Daten über mehrere Knoten) • „Eventual consistency“ / gelockerte Konsistenz: Zugunsten von Verfügbarkeit und Performance ist die Konsistenz der Daten über die verteilten Partitionen nicht zu jedem Zeitpunkt sichergestellt. Eine verteilte Datenbank kann nur zwei der drei Anforderungen von Konsistenz, Verfügbarkeit und Partitionstoleranz gleichzeitig garantieren. (CAP-Theorem von Brewer)* • Gelockerte Schemarestriktionen und unterschiedliche Möglichkeiten der Datenstrukturierung • Datenbankspezifische Abfragesprachen und APIs • Häufig open-source Produkte mit Wurzeln in Web-Firmen • Polyglotte Architekturen (z.B. zusammen mit Hadoop, RDBMS oder DW) oft in Big-Data-Lösungen umgesetzt Consistency Availability Partition Tolerance * Vereinfachte Darstellung. Mehr Informationen: http://www.infoq.com/articles/cap-twelve-years-later-how-the-rules-have-changed © Capgemini 2016. All Rights Reserved TDWI-2016-RDBMS-vs-NoSQL-Master.pptx 7 CAP-Theorem NoSQL-Datenbanken
  • 8. Fokus von Datenlösungen im Big Data Kontext © Capgemini 2016. All Rights Reserved 8TDWI-2016-RDBMS-vs-NoSQL-Master.pptx Velocity VarietyVolume Hadoop (HDFS) NoSQL Data Warehouses (OLAP) In-memory & event processing tools Filesysteme NoSQL-Datenbanken
  • 9. NoSQL-Datenbanken – Typische fachliche Anwendungsfälle © Capgemini 2016. All Rights Reserved 9TDWI-2016-RDBMS-vs-NoSQL-Master.pptx • Web & Mobile Applikationen (Caching, Leaderboards, Latency kritische Anwendungen, Online Games, Sessions, Personalisierung) • Soziale Netzwerke • Log- und Sensordaten aus dem Internet-of-Things-Bereich (z.B. real-time Tracking von Maschinendaten) • Customer 360° View • Analytics (Datenanalyse, Betrugserkennung, MapReduce) • … und mehr NoSQL-Datenbanken
  • 10. NoSQL-Datenbanken – Typische technische Anwendungsfälle © Capgemini 2016. All Rights Reserved 10TDWI-2016-RDBMS-vs-NoSQL-Master.pptx • Hohes Datenvolumen und lineare Skalierbarkeit • Einsatz von Commodity Hardware • Flexible Datenschemata (z.B. Änderungen am Datenmodell in agilen Umfeldern) • Spezielle Abfragen (z.B. Geoqueries) • Globale Verteilung der Daten (Replikation) 1 0 0 1 01 0 0 1 0 1 1 1 0 1 0 1 1 0 0 1 1 1 0 1 0 1 0 0 1 1 0 1 1 0 1 0 1 1 0 0 1 0 1 1 NoSQL-Datenbanken
  • 11. NoSQL-Datenbanken – Datenschemata Dokumentorientiert SpaltenorientiertKey-Value Graph © Capgemini 2016. All Rights Reserved TDWI-2016-RDBMS-vs-NoSQL-Master.pptx 11 Relational NoSQL NoSQL-Datenbanken
  • 12. Map Reduce: Parallelisierte und verteilte Verarbeitung, bei der Daten in gruppierte Key-Value Paare aufgeteilt und zusammengeführt (map) und sortiert (reduce) werden. Dies erfordert häufig speziell auf den Anwendungsfall abgestimmte Skripte. Proprietäre Abfragesprachen: Sind dem jeweiligen Datenschema angepasst und um spezifische Funktionen erweitert. Zur Integration in Systeme werden proprietäre APIs und Frameworks benötigt. Beispiele: RESTful HTTP Argumente: URL kodierte HTTP Anfragen mittels GET und POST. Austauschformat häufig JSON. GET http://127.0.0.1:5984/database/document SQL: Spezifische Übersetzungsframeworks existieren oder Abfragesprachen sind daran angelehnt z.B. CQL von Cassandra. NoSQL-Datenbanken – Abfragen © Capgemini 2016. All Rights Reserved 12TDWI-2016-RDBMS-vs-NoSQL-Master.pptx Bildquelle: https://de.wikipedia.org/wiki/Datei:MapReduce2.svg Besetzung der Filme beginnend mit ‚T‘ / Graph-DB Neo4j: db.restaurants.find({ location: { $geoWithin: { $centerSphere: [ [ -73.93414657, 40.82302903 ], 5 / 3963.2 ] } } }) MATCH (actor:Person)-[:ACTED_IN]->(movie:Movie) WHERE movie.title STARTS WITH "T“ RETURN movie.title AS title, collect(actor.name) AS cast ORDER BY title ASC LIMIT 10; Restaurants im Umkreis / MongoDB: NoSQL-Datenbanken
  • 13. Googles Trend für “NoSQL” – Interesse stieg ~2010 sprunghaft an Realisierungen könnten zeitlich versetzt nachziehen © Capgemini 2016. All Rights Reserved 13TDWI-2016-RDBMS-vs-NoSQL-Master.pptx NoSQL-Datenbanken
  • 14. Googles Trend für Terme NoSQL & RDBMS Gezeitenwechsel zwischen RDBMS und NoSQL bei Interesse erkennbar © Capgemini 2016. All Rights Reserved 14TDWI-2016-RDBMS-vs-NoSQL-Master.pptx NoSQL-Datenbanken
  • 15. NoSQL - Datenbanken – Pro & Contra Pro + Con - zu viele DB Produkte, Einsetzbarkeit in Unternehmen häufig unklar oft knappe Verfügbarkeit von erfahrenen Kollegen & mangelhafte Dokumentation fehlende Standards, Abfragesprachen & Best Practices gelockerte Konsistenz Vielfalt an Produkten oft Lizenz-freie Software vielfältige und flexible Datenschemata native Skalierbarkeit, hohe Performance & Fehlerresistenz © Capgemini 2016. All Rights Reserved TDWI-2016-RDBMS-vs-NoSQL-Master.pptx 15 NoSQL-Datenbanken
  • 17. Vision des Kunden war Übersicht in großem Dokumentenfundus Ziel war schnelles Finden von R&D-Papern nach Schlagwörtern & Inhaltsbeziehungen in Automotivedomäne © Capgemini 2016. All Rights Reserved 18TDWI-2016-RDBMS-vs-NoSQL-Master.pptx • Parsen, Indizierung und Persistieren von Forschungsberichten aus Automobilbau • Finden von Dokumenten nach Suchtermen • Graph von untereinander abhängigen Dokumenten • Aufdecken von inhaltlichen Beziehungen – sog. „Content-derived Metadata“, wie • Autoren, • Forschungsfeldern, • Abteilungen, • explizite Referenzen und inhaltliche, implizite Verweise, • zeitliche Abhängigkeiten, • etc. Anwendungsfälle Knowledge-Management für Automotive-Wissenschaft
  • 18. Data Hub kommt ohne RDBMS zur Steicherung aus Ziel war schnelles Finden von Wissenschaftspapern nach Schlagwörtern und Inhaltsbeziehungen für R&D © Capgemini 2016. All Rights Reserved 19TDWI-2016-RDBMS-vs-NoSQL-Master.pptx menschliche Anwender Dokumente Data Hub Anwendungsfälle Knowledge-Management für Automotive-Wissenschaft
  • 19. Lessons Learned © Capgemini 2016. All Rights Reserved 20TDWI-2016-RDBMS-vs-NoSQL-Master.pptx Hadoop ist • günstiger, skalierbarer, ausfall-sicherer Massenspeicher • mächtiges Framework zur Speicherung von riesigen Mengen an Rohdaten  als OLAP-System • entscheidendes Bottleneck war damals Nahe-Echtzeitanfrage der Daten  kein OLTP-System • relativ komplex – auch damals, als es deutlich weniger Komponenten dafür gab • weniger Anwender-freundlich als BI-Tools Anwendungsfälle Knowledge-Management für Automotive-Wissenschaft
  • 21. Automotive-Kunde wollte riesige Datenmenge diverser Struktur verarbeiten können Lösung ist Data Lake: RDBMS + NoSQL-System • gesucht ist • skalierbares, ausfallsicheres, hoch-performantes System, • günstigem Massenspeicher für Rohdaten, • auch mit Tabellen-artiger Struktur, • mit geringen, laufenden Kosten, • welches weitestgehend zukunftssicher für kommende 30 Jahre ist • Anforderungen für eine zentrale Umgebung v.a. für • Sales-Prognosen, • Aftersales-Analysen, • Simulationen für operative Planungen, • Datenimport von diversen, bestehenden, internen und externen Datenquellen sowie • generische Möglichkeit Applikationen auf eigenem Datenbestand auszuführen © Capgemini 2016. All Rights Reserved TDWI-2016-RDBMS-vs-NoSQL-Master.pptx 22 Anwendungsfälle Rechencluster für Vorhersagen, Applikationen & Automotive-Simulationen
  • 22. Job-Offloading: RDBMS schickt große Datenmengen zur Aggregation in Hive ans Hadoop; Datenfluss mit Sqoop realisiert Datenmengen zu groß für Auswertung in RDBMS – daher Auswertung in skalierbarem Hadoop-System TDWI-2016-RDBMS-vs-NoSQL-Master.pptx Anwendungsfälle Rechencluster für Vorhersagen, Applikationen & Automotive-Simulationen Aggregate Detaildaten © Capgemini 2016. All Rights Reserved 23
  • 23. Ausführung eigenen Java-Codes auf Spark auf Detaildaten in Hadoops HDFS System kann MPP-ähnlich beliebige Algorithmen in Spark, YARN und MapReduce ausführen TDWI-2016-RDBMS-vs-NoSQL-Master.pptx Anwendungsfälle Rechencluster für Vorhersagen, Applikationen & Automotive-Simulationen Aggregate Detaildaten Teilevorhersagen © Capgemini 2016. All Rights Reserved 24
  • 24. Hadoop-Plattform zur Speicherung von Daten sowie zur Ausführung von Applikationen & Algorithmen darauf Oozie steuert gesamten Datenfluss (ETL) und Ausführung der Applikationen & Algorithmen TDWI-2016-RDBMS-vs-NoSQL-Master.pptx Anwendungsfälle Rechencluster für Vorhersagen, Applikationen & Automotive-Simulationen Aggregate Detaildaten Teilevorhersagen © Capgemini 2016. All Rights Reserved 25
  • 25. Anwender können mittels BI-Tool Tableau auf Daten in RDBMS und Hadoop zugreifen — Data Lake fühlt sich an, wie ein Datenpool arbeiten i.d.R. auf RDBMS, da Antworten in Naheechtzeit; Drill-Through referenzierte Daten im Hadoop deutlich langsamer (im Minutenbereich) dafür Arbeit auf riesigen Datenmengen (Terabyte-Bereich) möglich TDWI-2016-RDBMS-vs-NoSQL-Master.pptx menschliche Anwender Anwendungsfälle Rechencluster für Vorhersagen, Applikationen & Automotive-Simulationen Aggregate Detaildaten Teilevorhersagen © Capgemini 2016. All Rights Reserved 26
  • 26. Externe Quellsysteme können Daten in Streams und Batches einfügen alle Datenformate sind beliebig strukturierbar, da Hadoops HDFS ein Rohdatenspeicher ist TDWI-2016-RDBMS-vs-NoSQL-Master.pptx menschliche Anwender Anwendungsfälle Rechencluster für Vorhersagen, Applikationen & Automotive-Simulationen Aggregate Detaildaten Teilevorhersagen © Capgemini 2016. All Rights Reserved 27
  • 27. Weitere Evolution dieses Data Lake’s nutzt diverse RDBMS-Quellsysteme & NoSQL-Systeme RDBMS und NoSQL sollen jeweilige Stärken ausspielen © Capgemini 2016. All Rights Reserved 28TDWI-2016-RDBMS-vs-NoSQL-Master.pptx einige menschliche & viele technische Anwender beigestelltes, erweiterndes RDBMS zum Data Lake RDBMS-Quellsysteme Data Lake Anwendungsfälle Rechencluster für Vorhersagen, Applikationen & Automotive-Simulationen
  • 28. Lessons Learned kritisch beim Einsatz von Hadoop und Cassandra © Capgemini 2016. All Rights Reserved 29TDWI-2016-RDBMS-vs-NoSQL-Master.pptx Hadoop • ist immer noch relativ komplex • ist weniger Anwender-freundlich als BI-Tools • sehr gute Integration von Tableau in Hadoop und Cassandra • gute Integration in DWH-Systeme • ist deutliche Schwierigkeiten es Datenschutz-konform zu betreiben • ist deutlich langsamer als Cassandra in Beantwortung von Anfragen durch Latenz im Master/Slave-Design Anwendungsfälle Rechencluster für Vorhersagen, Applikationen & Automotive-Simulationen
  • 29. Lessons Learned weitere Aspekte von Hadoop und Cassandra © Capgemini 2016. All Rights Reserved 30TDWI-2016-RDBMS-vs-NoSQL-Master.pptx Hadoop • ist günstiger, skalierbarer, ausfall-sicherer, durchgehend verfügbarer Massenspeicher • ist mächtiges Framework zur Speicherung von riesigen Mengen an Rohdaten  als OLAP-System • Caches, Datenbanken und Komponenten ermöglichen auch Nahe-Echtzeitanfragen  als OLTP-System • Komponenten, wie Hive, Impala & Spark SQL, ermöglichen • nahezu den Ersatz eines DWH durch Hadoop • Job-Offloading vom DWH nach Hadoop • ist relativ Linux-affin in Nutzung Cassandra • benötigt vorher bekanntes Schema und mglw. Spiegeltabellen je Anfragemuster  führt mglw. zu doppelter Replikation der Daten: • Replikationsfaktor im Design und • Spiegeltabellen / Materialisierte Sichten auf Anwendungsebene • ist relativ Linux-affin in Nutzung Anwendungsfälle Rechencluster für Vorhersagen, Applikationen & Automotive-Simulationen
  • 31. Vision des Kunden • Auswertung von Massenpositionsdaten aus GPS-Signalen • Geräte aus ganzem Monitoringgebiet liefern Daten an ein zentrales System über Mobilfunknetze • Nachverfolgung aller Bewegungen aller Geräte kurzfristig möglich • Auswertung tabellenartiger und graphenartiger Daten • Anwendung von Advanced-Analytics- resp. Machine-Learning-Methoden auf gesamtem Datenbestand und seiner Historie • Kunde war Neueinsteiger in Big-Data-Analysen © Capgemini 2016. All Rights Reserved TDWI-2016-RDBMS-vs-NoSQL-Master.pptx 32 Anwendungsfälle Qualitätssicherung auf Geodaten Eingehende Daten sind… • 1 TB bis 10 TB je Tag • OLAP-Analysen in ¼-Stunden-Batches • strukturiert oder unstrukturiert im Binärformat • ungleich verteilt • Datenlieferungen durch vier Systeme, teilweise voneinander abhängige und unabhängige Systeme
  • 32. Der Speicher- & Rechencluster ist in jedem Knoten datenlokal aufgebaut Ring-Architektur mit deckungsgleichem, datenlokalem Spark-Verbund © Capgemini 2016. All Rights Reserved 33TDWI-2016-RDBMS-vs-NoSQL-Master.pptx Ausführungsschicht Datenhaltung Anwendungsfälle Qualitätssicherung auf Geodaten
  • 33. Datenfluss von den Quellen zur Qualitätssicherung Datenhaltung in bestenfalls zwei verbundenen Spark-on-Cassandra-Ringen zur Analyse © Capgemini 2016. All Rights Reserved 34TDWI-2016-RDBMS-vs-NoSQL-Master.pptx Vorverarbeitung OLTP-Ring für hohen Data Ingest Sensordaten von Transportmitteln OLAP-Ring für Data Science GPS-Daten Anwendungsfälle Qualitätssicherung auf Geodaten
  • 34. Austausch mit RDBMS Sqoop überträgt Daten bidirektional zw. Relationalen Datenbanken und Cassandra © Capgemini 2016. All Rights Reserved 35TDWI-2016-RDBMS-vs-NoSQL-Master.pptx Datenintegration Ausführungsschicht Datenhaltung RDBMS Anwendungsfälle Qualitätssicherung auf Geodaten
  • 35. Zugriffsschicht für Datenanalysten Nutzung von SQL, R, Python, SQL, Scala und Java möglich © Capgemini 2016. All Rights Reserved 36TDWI-2016-RDBMS-vs-NoSQL-Master.pptx Analyselayer Ausführungsschicht Datenhaltung Datenanalyst Zeppelin Anwendungsfälle Qualitätssicherung auf Geodaten
  • 36. Abschied von Oracle Oracle-ähnliche Technologie gesucht • Oracle bei Kunden weitestgehend gesetzte, erprobte Technologie • Cassandra sehr viel ähnlicher als Hadoop zu Oracle-Lösungen • SQL-Developer  DevCenter • Enterprise Manager  OpsCenter • u.a. Backup-Verfahren, Nutzer/Rechte/Rollen-Konzept, PreparedStatements sehr ähnlich zu Oracle • Umstellungen im Detail © Capgemini 2016. All Rights Reserved TDWI-2016-RDBMS-vs-NoSQL-Master.pptx 37 Anwendungsfälle Qualitätssicherung auf Geodaten
  • 37. Aufbau Spark-on-Cassandra-Cluster Cassandra bevorzugte Wahl gegenüber Oracle und Hadoop © Capgemini 2016. All Rights Reserved 38TDWI-2016-RDBMS-vs-NoSQL-Master.pptx • Cassandra bevorzugte Datenbank durch Einfachheit • Distribution DSE (DataStax Enterprise) enthält viele Machine-Learning-Lösungen aus Hadoop-Distributionen • schlanker, schneller und mächtiger Technologiestack • Aufbau Cluster mit 1 aktivem & 1 passivem Ring – synchronisieren sich fortlaufend gegenseitig Anwendungsfälle Qualitätssicherung auf Geodaten
  • 38. Aufbau Netzwerktopologie der Speicher- & Rechenknoten über Rechenzentren und Umgebungen © Capgemini 2016. All Rights Reserved 39TDWI-2016-RDBMS-vs-NoSQL-Master.pptx Sampledaten bei Bedarf Produktion mit Standby-Cluster 24/7 automatische Synchronisation der Daten zweier Rechenzentren Data Science & Entwicklung 24/7 automatische Synchronisation der Daten zweier Rechenzentren Quell- systeme Anwendungsfälle Qualitätssicherung auf Geodaten
  • 39. Lessons Learned – so far kritisch bei Einsatz von NoSQL © Capgemini 2016. All Rights Reserved 40TDWI-2016-RDBMS-vs-NoSQL-Master.pptx vor allem Cassandra und HBase • können oft ähnlich hohes Datenschutzlevel erreichen, wie RDBMS • erfordern damit auch Kenntnis der Zugriffsmuster auf Daten – vor Realisierungsbeginn • erfordern oftmals Commodity-Hardware – Netzwerkspeicher, wie SAN oder NAS, kann ein Antipattern sein DSE als Big-Data-Distribution ist • weniger komplex als Hadoop, da nur relevanteste Komponenten für Data Science enthalten sind • deutlich einfacher Datenschutz-konform bettreibbar • strukturierte und umfassende Herangehensweise zur Beurteilung von NoSQL-Datenbanken benötigt  Lösung folgt gleich Anwendungsfälle Qualitätssicherung auf Geodaten
  • 41. Neo4j im UK-Public-Sektor © Capgemini 2016. All Rights Reserved 43TDWI-2016-RDBMS-vs-NoSQL-Master.pptx Zielsetzung: Erkennung und Visualisierung von Zusammenhängen in Daten aus externen, internen und kommerziellen Quellen Anwendergruppen: Experten Datenanalysten (ca. 6 Nutzer), Ermittler (ca. 1000 Nutzer in einem Jahr). Kurze Trainingszeit. Technologien: Isoliertes, globales Behördennetzwerk, Greenplum PostgreSQL, Neo4j, Elasticsearch, node.js, nginx, Webapplikation DB Größe: Millionen von neuen Datensätzen pro Tag Hardware: Commoditiy, 4 Hexa Core Prozessoren, 128 GB RAM. Keine Cloud Umgebung. Anwendungsfälle Neo4j im UK-Public-Sektor
  • 42. POLE: Party, Object, Location, Event © Capgemini 2016. All Rights Reserved 44TDWI-2016-RDBMS-vs-NoSQL-Master.pptx POLE enthält alle Objekte und ihre Verbindungen. Party: Logische Repräsentation eines Individuums Object: Logische Repräsentation eines physischen Objekts Location: Logische Repräsentation einer Ortes Event: Logische Repräsentation eines Ereignisses Party Object Location Event MATCH (P1:person {name:’John’})-[R1:goes_to]->(L1:’conference’) RETURN L1; Anwendungsfälle Neo4j im UK-Public-Sektor
  • 43. POLE: Party, Object, Location, Event in RDBMS © Capgemini 2016. All Rights Reserved 45TDWI-2016-RDBMS-vs-NoSQL-Master.pptx Atomare Rohdaten werden erhalten Daten werden transformiert und in POLE geladen Atomare Daten POLE Datenhaltung Daten Matching (MDM) Daten Quellen LandingArea AnalytischeDatenin MPPDatenbank (Greenplum) Semantischer Layer (virtuelle Views) POLE Party Object Location Event EL ETL Views Anwendungsfälle Neo4j im UK-Public-Sektor CSV, TXT, XLS, Oracle, SQL
  • 44. CentOS Development Server 2 Architektur © Capgemini 2016. All Rights Reserved 46TDWI-2016-RDBMS-vs-NoSQL-Master.pptx Staging CentOS Development Server 1 Web Front End CSVs POLE subset POLE Verbindungen POLE Attribute JSON DI Studio Anwendungsfälle Neo4j im UK-Public-Sektor
  • 45. Herausforderungen © Capgemini 2016. All Rights Reserved 47TDWI-2016-RDBMS-vs-NoSQL-Master.pptx POLE reduziert Entwicklungszeit und Fehleranfälligkeit und ist einfach verständlich, da die Komplexität nicht mit der Datentiefe oder Datenbreite zunimmt. Es gibt aber viele POLE Objekte als Duplikate. Diese müssen zusammengeführt werden. Hierfür wird ein probabilistisches Abgleichungsverfahren eingesetzt. Das Verfahren vergleicht viele Charakteristiken der Objekte und errechnet einen Übereinstimmungswert. Die Regeln zur Berechnung können von einem Algorithmus basierend auf allen Datensätzen bestimmt werden. Ähnlich einem Gerichtsverfahren beurteilen die Regeln ( = Richter) unabhängig voneinander und kommen zu einer gemeinsamen Entscheidung. „Namen-Richter“ „Tel. Nr.-Richter“ „Teilnehmer-ID Richter“ Record 1 Name: Tom K. Klausen Tel. Nr. (089) 872-1277 Teilnehmer-ID 872312318 Record 2 Name: Thomas Klaussen Tel. Nr. (089) 872-1727 Teilnehmer-ID 872412318 Anwendungsfälle Neo4j im UK-Public-Sektor
  • 46. Datenhaltung © Capgemini 2016. All Rights Reserved 48TDWI-2016-RDBMS-vs-NoSQL-Master.pptx • GreenPlum • Enthält als relationale Datenbank alle Daten. • Es ist sehr ineffizient Verbindungen zwischen Datenobjekten zu finden da mehrere Joins nötig wären. Eine „real-time“ Performance wäre nicht gegeben. • Neo4J: • Ist ideal zur Identifizierung von Verbindungen zwischen Objekten. • Auch die Skalierung wird als sehr gut empfunden. • Daten werden zwischen den Server repliziert. Eine Partitionierung findet nicht statt. • Herausforderung: Automatisches, zeitbezogenes Löschen von Daten. • Um verschiedene Sichten auf die Daten zu ermöglichen muss die Graphdatenbank dupliziert werden. • Für eine Freitextsuche ist Neo4j nicht ideal. Hierfür wird Elasticsearch verwendet. Anwendungsfälle Neo4j im UK-Public-Sektor
  • 47. Lessons-Learned © Capgemini 2016. All Rights Reserved 49TDWI-2016-RDBMS-vs-NoSQL-Master.pptx NoSQL-Datenbanken… • sind i.d.R. stark wo RDBMS schwach sind – Marktnische muss für das Produkt existieren • hybrider Technologiestack kann Vorteile beider Systeme gewinnbringend nutzen • ein Datenmodell und Datenschema sind immer noch unerlässlich • RDBMS haben häufig Vorteile im Bereich der Sicherheit (Authentifizierung & Autorisierung) Anwendungsfälle Neo4j im UK-Public-Sektor
  • 49. Big-Data-Referenz-Architektur © Capgemini 2016. All Rights Reserved 51TDWI-2016-RDBMS-vs-NoSQL-Master.pptx • Zweck ist es existierende, interne und externe Architekturentwürfe im Big Data Umfeld zu konsolidieren. • Die standardisierte Architektur dient als Vorlage für globale Big Data Projekte von Capgemini. • Sie listet die wichtigsten Bausteine für Big Data Architekturen auf. • Sie vermittelt einen breiten und umfassenden Blick auf die Fragestellungen im Big Data Umfeld und adressiert alle Stakeholder wie Endanwender, IT-Architekten, Data Scientists und Entwickler in drei verschiedenen Sichten. Big-Data-Referenz-Architektur
  • 50. Big-Data-Referenz-Architektur — Analytics © Capgemini 2016. All Rights Reserved 52TDWI-2016-RDBMS-vs-NoSQL-Master.pptx Der Zweck von Analytics ist es…  zusätzlichen Wert zu schaffen (value)  indem basierend auf Erkenntnissen gehandelt wird (insights & act)  welche aus der Analyse von Informationen gewonnen werden (analyzing information)  die auf Datenverarbeitungsprozessen aus verschiedenen Quellen aufbauen (process & source data) ValueActInsightAnalyzeInformationProcessSource data Data flow Requirements Big-Data-Referenz-Architektur
  • 51. Big-Data-Referenz-Architektur — Technische Sicht © Capgemini 2016. All Rights Reserved 54TDWI-2016-RDBMS-vs-NoSQL-Master.pptx Manage Process Analyze Information Source data Data ExplorationReporting Ad-hoc Querying Search, Retrieval Structured data  tables Unstructured Data  Text, speech, … Semistructured data  JSON, XML, … Data WarehouseData Asset Catalog  Index  Tags  Metadata Data Lake Analytical Sandbox NoSQL databases Key value store Document store Column store Graph store NLP SQL databases Row based Column based Streaming, Event Processing File system Analytics Base Tables Data Mining, Machine Learning Next Best Action High level ingestion and data preparation Low level ingestion ETL/ELT Adv. Visualization SQL SQL Java Scala Python R Batch Processing Data virtualization Big-Data-Referenz-Architektur
  • 53. NoSQL-Evaluierungsframework — Herausforderungen bei der Beurteilung von NoSQL Datenbanken © Capgemini 2016. All Rights Reserved 56TDWI-2016-RDBMS-vs-NoSQL-Master.pptx Herausforderungen Schnelle technologische Veränderungen im NoSQL Bereich Benchmarks häufig von Herstellern beeinflusst Dokumentationen vernachlässigen Informationen Informationen über weniger populäre Datenbanken schwer zugänglich I/O Benchmarks als Entscheidungs- grundlage zu wenig NoSQL-Evaluierungsframework
  • 54. NoSQL-Evaluierungsframework © Capgemini 2016. All Rights Reserved 57TDWI-2016-RDBMS-vs-NoSQL-Master.pptx Beispiel für I/O Benchmarks; Yahoo! Cloud Serving Benchmark. NoSQL Datenbanken werden von den Herstellern häufig nur im Bereich der Skalierbarkeit und Performance von Lese- und Schreibvorgängen (I/O) verglichen. NoSQL-Evaluierungsframework
  • 55. NoSQL-Evaluierungsframework © Capgemini 2016. All Rights Reserved 58TDWI-2016-RDBMS-vs-NoSQL-Master.pptx Auf der Suche nach der richtigen NoSQL Datenbank kann man sich nicht nur an I/O Performance Benchmarks orientieren. Zur umfassenden Bewertung gehören u.a. auch das Architekturumfeld, die erwarteten Daten oder die nötigen Abfragen. NoSQL-Evaluierungsframework
  • 56. NoSQL-Evaluierungsframework — Berechnung des NoSQL Enterprise Readiness Index (NERI) © Capgemini 2016. All Rights Reserved 59TDWI-2016-RDBMS-vs-NoSQL-Master.pptx 1 – Anforderungen im Anwendungsfall bestimmen das Gewicht einzelner Evaluierungskriterien 2 – Definition der Evaluierungskriterien und ihrer vier Leistungsstufen 3 – Bewertung der Kriterienerfüllung der Datenbanken 4 – Summe der gewichteten Bewertungen ergibt den vergleichbaren NERI NoSQL-Evaluierungsframework
  • 57. NoSQL-Evaluierungsframework — Kriteriencluster © Capgemini 2016. All Rights Reserved 60TDWI-2016-RDBMS-vs-NoSQL-Master.pptx Clustername Cluster Kriterien (zusammengefasst) Globale Kriterien Verfügbarkeit bei verschiedenen Cloud Anbietern; Angebot an Service Levels; Qualität der Dokumentation; Generelles Interesse am Arbeitsmarkt (Anzahl an LinkedIn Stellen mit dieser Technologie); Mögliche Kosten Datenmodell- und Speicherungskriterien Flexibilität des Datenschemas während der Laufzeit; Verfügbarkeit von verschiedenen Datentypen, von Speichermöglichkeiten (Disk, in-memory) und Indizes sowie von Kompression; Wege des Datenimports und Begrenzungen in der Datenbank- und Datensatzgröße. Laufzeitkriterien (Dev Ops) Authorisierung und Authentifizierung; Backupmöglichkeiten; Logging; Monitoring des Datenbankzustands (z.B. in einem GUI) Abfragekriterien Mächtigkeit der Abfragesprache(n) und der APIs; Schnittstellen zu populären Programmiersprachen; Erfüllung von Konsistenzkriterien Kriterien zur verteilten Datenhaltung Verfügbarkeit, Konfigurierbarkeit und Ausfalltoleranz der Replikations- und Partitionierungsmechanismen; Mögliche Hardwareanforderungen Performanzkritierien Verhalten der Latenz von Lese- und Schreibvorgängen unter sich erhöhender Last 1 0 0 1 01 0 0 1 0 1 1 1 0
  • 58. NoSQL-Evaluierungsframework — Beispiel Leistungsstufen © Capgemini 2016. All Rights Reserved 61TDWI-2016-RDBMS-vs-NoSQL-Master.pptx Code Kriteriumname Kriterium Beschreibung Leistungsstufen 0 – nicht erfüllt 1 – schlecht erfüllt 2 – gut erfüllt 3 – sehr gut erfüllt CM8 Indizierung Bewertet, ob es die Möglichkeit gibt die Daten zu indizieren. Keine Indizes verfügbar. Nur ein primär Index ist möglich. Ein primär und ein sekundär Index sind möglich. Ein primär und mehrere sekundäre Indizes sind möglich. NoSQL-Evaluierungsframework
  • 59. NoSQL-Evaluierungsframework — Beispiel Ergebnisse © Capgemini 2016. All Rights Reserved 62TDWI-2016-RDBMS-vs-NoSQL-Master.pptx 0.598 0.413 0.441 0.455 0.356 0.634 0.513 0.518 0.430 0.291 0.484 0.351 0.351 0.238 0.133 0.655 0.442 0.570 0.394 0.309 0.485 0.400 0.371 0.329 0.014 0.144 0.124 0.000 0.048 0.000 0.000 0.500 1.000 1.500 2.000 2.500 3.000 3 NERI 2,243 NERI 2,252 NERI 1,893 NERI 1,104 Possible max. weighed Rating Apache Cassandra (2.1.8) Riak KV (2.0) Redis (3.0.3) Memcached (1.4.24) Key-Value Databases Performance Criteria - CP* Distributed Database Criteria - CD* CRUD Query Criteria - CQ* Run-Time Management Criteria - CR* Data Model and Storage Criteria - CM* Global Criteria - CG* NoSQL-Evaluierungsframework
  • 60. NoSQL-Evaluierungsframework — Zusammenfassung © Capgemini 2016. All Rights Reserved 63TDWI-2016-RDBMS-vs-NoSQL-Master.pptx NoSQL Evaluation Framework ✓ theoriebasiert ✓ umfassend ✓ wiederholbar ✓ anpassbar und erweiterbar ✓ermöglicht eine strukturierte Analyse ✓ gibt eine klare und nachvollziehbare Entscheidung NoSQL-Evaluierungsframework
  • 62. „Disruptive Innovation“ führt zu Technologie- & Marktwechsel – NoSQL-DBs sind Disruptive Innovationen gegenüber RDBMS interessant ist vor allem Beispielanwender b da er aus beiden Märkten / Lösungstechnologien wählen kann © Capgemini 2016. All Rights Reserved 65TDWI-2016-RDBMS-vs-NoSQL-Master.pptx technischeLeistung Zeit Beispiele wo sich Anwendungsfälle heute befinden ⦿ a ⦿ b ⦿ c Innovators Dilemma
  • 63. Résumé RDBMS oder NoSQL – wer wird gewinnen? © Capgemini 2016. All Rights Reserved 69TDWI-2016-RDBMS-vs-NoSQL-Master.pptx Gewinner sind die jeweiligen Anwender mit sinnvollen NoSQL-Anwendungsfällen – schon heute
  • 64. Wir beantworten gerne Ihre Fragen! Ihre Fragen? © Capgemini 2016. All Rights Reserved 70TDWI-2016-RDBMS-vs-NoSQL-Master.pptx
  • 65. The information contained in this presentation is proprietary. Copyright © 2015 Capgemini. All rights reserved. www.capgemini.com About Capgemini Mit 180.000 Mitarbeitern in über 40 Ländern ist Capgemini einer der weltweit führenden Anbieter von Management- und IT- Beratung, Technologie-Services sowie Outsourcing- Dienstleistungen. Im Jahr 2014 betrug der Umsatz der Capgemini-Gruppe 10,573 Milliarden Euro. Gemeinsam mit seinen Kunden entwickelt Capgemini Geschäfts-, Technologie- sowie Digitallösungen, die auf die individuellen Kundenanforderungen zugeschnitten sind. Damit sollen Innovationen ermöglicht sowie die Wettbewerbsfähigkeit gestärkt werden. Als multinationale Organisation und mit seinem weltweiten Liefermodell Rightshore® zeichnet sich Capgemini durch seine besondere Art der Zusammenarbeit aus – die Collaborative Business ExperienceTM. Erfahren Sie mehr unter http://www.de.capgemini.com.