Logical Data Warehouse - SQL mit Oracle DB und Hadoop

www.ise-informatik.de
Logical Data Warehouse
SQL mit Oracle DB und Hadoop
Matthias Fuchs
DWH Architekt
ISE Information Systems Engineering GmbH
Ingo Reisky
Senior Consultant
Opitz Consulting Deutschland GmbH

Copyright (C) ISE GmbH - All Rights Reserved 2
Enable
eXtreme
Performance.
ISE Information Systems Engineering
 Gegründet 1991
 Mitarbeiteranzahl: 60
 Hauptsitz in Gräfenberg, Niederlassungen in München und Nürnberg
 Schwerpunkte:
 Oracle Engineered Systems (Exadata / Exalogic / Exalytics)
 Data Warehousing & Business Intelligence
 Oracle DB – Migrationen, Optimierungen, Hochverfügbarkeit
 Managed Service für Datenbanken, BI und Middlewareapplikationen
 Oracle Partner Engineered Systems Award 2013

Enable
eXtreme
Performance.
Erstes und einziges Exastack Technology Center in
Deutschland in Nürnberg
ISE Oracle Technology Center
Coming soon ODA X5

© OPITZ CONSULTING Deutschland GmbH 2015 Seite 4
Mission
Wir entwickeln gemeinsam mit allen
Branchen Lösungen, die dazu führen,
dass sich diese Organisationen besser
entwickeln als ihr Wettbewerb.
Unsere Dienstleistung erfolgt
partnerschaftlich und ist auf eine
langjährige Zusammenarbeit angelegt.
Leistungsangebot
Business IT Alignment
Business Information Management
Business Process Management
Anwendungsentwicklung
SOA und System-Integration
IT-Infrastruktur-Management
Märkte
Branchenübergreifend
Über 600 Kunden
29%
Industrie / Versorger /
Telekommunikation
29%
Handel / Logistik /
Dienstleistungen
42%
Öffentliche Auftraggeber / Banken und
Versicherungen / Vereine und Verbände
Eckdaten
Gründung 1990
400 Mitarbeiter
9 Standorte
Vorstellung OPITZ CONSULTING

© OPITZ CONSULTING Deutschland GmbH 2015 Seite 5
Wie OPITZ CONSULTING Big Data versteht
 Wir helfen Kunden,
 die Möglichkeiten von Big Data zu verstehen
 Business Cases in ihrem Unternehmen zu erkennen und ganzheitlich unter
Berücksichtigung bestehender Architekturen zu bewerten
 Projekte zielorientiert aufzusetzen und erfolgreich durchzuführen
 Business Cases anhand von Proof of Concepts zu verifizieren.
 Big Data ist bei OPITZ CONSULTING eines der TOP 3
Zukunftsthemen!
Big Data = Alter Hut
• IT-Durchdringung der
Geschäftswelt steigt seit
Beginn
• Mooresche Gesetz gilt
immer noch
OPITZ CONSULTING1990
• Database-focused
Company
• große Datenmengen &
komplexe
Anforderungen
OPITZ CONSULTINGt+25
• Individuallösungen,
wenn Standard nicht
ausreicht
• Kontinuierliche Adaption
neuer IT-Trends
Big Data = Chance
• Prozess- und
Interessenstransparenz
dank Maschine Data
• Wettbewerbsvorteile
dank Kombination
(Mobile+ Big Data +
Cloud + Analytics)
25

Enable
eXtreme
Performance.
 Matthias Fuchs
- Senior Consultant
Infrastructure&Database
- 10 Jahre Oracle-Erfahrung
- OCP, Exadata Certified
- Focus on DWH, Audit,
Security in Oracle DB and
Oracle Exa Systems
Bio
 Ingo Reisky
- Senior Consultant im
Infrastructure Consulting
bei OPITZ CONSULTING
- Mitglied OC-CC Big Data
- Dipl.-Wirtschaftsingenieur
Univ. Karlsruhe (TH)
- OCP, LPIC-2, RHCT, …
- Fusion MW Spezialist:
Oracle Weblogic Server,
SOA Suite, Enterprise
Manager Cloud Control

Enable
eXtreme
Performance.
Agenda
 LDW - Logical Data Warehouse
 Big Data SQL Infrastructure
 Sqoop - der Anfang
 Fallbeispiel aus Kundenprojekt

Enable
eXtreme
Performance.
LDW – Logical Data Warehouse

Enable
eXtreme
Performance.
Logical Data Warehouse
Gartner Hype Cycle for Information Infrastructure, 2012,
“the Logical Data Warehouse (LDW) is a new data
management architecture for analytics which combines the
strengths of traditional repository warehouses with
alternative data management and access strategy. The
LDW will form a new best practices by the end of 2015.”

Enable
eXtreme
Performance.
 Repository Management
 Verschiedene Typen u.a. Metadaten
 Konsolidierung
 Data Virtualization
 Virtuelle Daten Schicht
 Distributed Processes
 Aufruf externer Prozesse
 z.B. Bilder oder Content Analyse, aber auch MapReduce
 Cloud
 Auditing statistics and performance Evaluation
 Statistik über Performance
 End User, Applikationen oder Verbindungen
 SLA Management
 Metadataset über erwartete Ausführungenzeiten etc.
 Überwachung und ggf. Änderung der Ausführung
 Taxonomy - Ontology resolution
 a taxonomy “tree” in an ontological “forest”
 Metadata Management
Gartner: Logical Data Warehouse

Enable
eXtreme
Performance.
 Repository Management
 Verschiedene Typen u.a. Metadaten
 Konsolidierung
 Data Virtualization
 Virtuelle Daten Schicht
 Distributed Processes
 Aufruf externer Prozesse
 z.B. Bilder oder Content Analyse, aber auch MapReduce
 Cloud
 Auditing statistics and performance Evaluation
 Statistik über Performance
 End User, Applikationen oder Verbindungen
 SLA Management
 Metadataset über erwartete Ausführungenzeiten etc.
 Überwachung und ggf. Änderung der Ausführung
 Taxonomy - Ontology resolution
 a taxonomy “tree” in an ontological “forest”
 Metadata Management
Gartner: Logical Data Warehouse
‚Data-to-insight cycle ' schneller
günstiges Framework um neue
Inhalte einzubeziehen
Höhere Flexibilität

Enable
eXtreme
Performance.
Gartner: Übersicht
Aus Gartner Newsletter Logical Data Warehousing for Big Data

Enable
eXtreme
Performance.
Big Data SQL Infrastructure

Enable
eXtreme
Performance.
Logische Implementation

Enable
eXtreme
Performance.
First LDW Implementationen
SLA Management Audit Management
Virtual.
.
Hadoop

Enable
eXtreme
Performance.
 Innovation: Oracle Big Data SQL
 Erweitert Oracle SQL für Oracle DB, NoSQL und Hadoop!
Daten aus heterogenen Quellen

Enable
eXtreme
Performance.
Big Data Sql - Übersicht
Oracle Big Data SQL
Cloudera
Hadoop
NOSQL
R Advanced
Analytics
Exadata
Advanced
Analytics
Advanced
Security
Connectors
ODI
Or BigData Lite VM

Enable
eXtreme
Performance.
Big Data Systemübersicht
Storage Layer
Filesystem (HDFS)
Resource Management YARN + MapReduce
Processing Layer
Big Data SQL

Enable
eXtreme
Performance.
Big Data und DB im LDW
ODI, BPM, SOA
Enterprise Metadata
Management
Oracle Big Data
Appliance
Repository Management
Data Virtualization
Distributed Processes
Auditing statistics and performance
SLA Management
Taxonomy - Ontology resolution

Enable
eXtreme
Performance.
Daten in Hadoop laden

Enable
eXtreme
Performance.
 Sqoop = SQL- to - Hadoop
 Paralleles kopieren von JDBC <-> HDFS
 MapReduce jobs zum Daten laden/schreiben
Sqoop
DB
HDFS
Map
Reduce

Enable
eXtreme
Performance.
 OraOOP Guy Harrison team Quest (Dell)
 Ab version 1.4.5 (CDH 5.1)
 Oracle direct path (non-buffered) IO for all reads
 Auf mappers werden Anzahl Blöcke verteilt
 Bei partitionierten Tabellen, kann der Mapper pro Partition arbeiten
Sqoop mit Oracle
ORACLE
TABLE
HDFS HADOOP
MAPPER
ORACLE
SESSION
HADOOP
MAPPER
ORACLE
SESSION

Enable
eXtreme
Performance.
Sqoop 1 vs. Sqoop 2
Sqoop 1 Sqoop 2
Kerberos Security, RDBMS
connectors, transfer to hive
Jdbc Connection
Client startet Map jobs Service based, DB Treiber
auf dem Server
MAP only MAPReduce
Client mit connection
Details
Vorkonfigurierte
datasources
Durch quest Oracle direct
Treiber implementiert
Oracle direct connector
geplant 1.99.7
(aktuell1.99.5)

Enable
eXtreme
Performance.
 Auszug aus Roadmap Sqoop 2, Version 1.99.7:
https://cwiki.apache.org/confluence/display/SQOOP/Sqoop+2+Roadmap
 “In this release, let’s focus on developing new connectors and
execution engines.
 HBase connector
 Hive connector
 HCatalog connector (Or is this the same as Hive connector?)
 MySQL fast connector
 PostgreSQL fast connector
 Oracle fast connector
 Netezza connector
 Teradata connector (?)
 Spark execution engine”
Ausblick: Sqoop 2 Roadmap

Enable
eXtreme
Performance.
 Oracle Data Integrator
 Sqoop loads beide Richtungen
 Integration Knowledge Modules
 Oracle SQL Connector
 External Table
 Hive oder HDFS to Oracle
 Oracle Loader for Hadoop
 Load data to Oracle
 Prepare data and load to Oracle
https://docs.oracle.com/cd/E57371_01/doc.41/e57352/start.htm#BDCUG261
Big Data Connector

Enable
eXtreme
Performance.
Oracle SQLConnector
http://www.oracle.com/us/products/database/big-data-connectors/certifications/index.html

Enable
eXtreme
Performance.
 Oracle Change Data Capture
 Supported in 11.2 – but not recommended by Oracle
 Desupported in 12.1
 Oracle Golden Gate
 1. RDBMS to HIVE
 2. RDBMS to Flume
 3. RDBMS to HDFS
 Andere Hersteller:
 (Dell) Quest SharePlex – Auslesen redologs
 (VMWare) Continuent Tungsten – benutzt CDC im Hintergrund
 Libelle
Real Time

Enable
eXtreme
Performance.
Noch mehr SQL auf Hadoop

Enable
eXtreme
Performance.
 Zahlreiche Möglichkeiten, mit „R“ strukturierte Daten abzufragen
 Verbindung mit R gegen Oracle DB
 Package ROracle (mit Oracle Client/Instant Client)
 http://www.oracle.com/technetwork/database/database-
technologies/r/roracle/overview/index.html
 Verbindung mit R gegen Apache Hadoop oder Hive
 Packages in RHadoop (R gegen HDFS, HBase, …):
https://github.com/RevolutionAnalytics/RHadoop/wiki
 RHIPE: Integrierte R- und Hadoop-Umgebung
 Package RHive: HiveQL (HQL, ähnlich SQL) gegen Hive
 R in der Oracle DB oder In Hive:
 Advanced Analytics Option (AAO)
 http://www.oracle.com/technetwork/database/options/advanced-
analytics/overview/index.html
R und SQL

Enable
eXtreme
Performance.
 Apache Spark ist eine alternative Execution Engine für Hadoop
(neben MapReduce und Tez) oder Stand-alone: schnell!
 Spark SQL: Modul für den Zugriff auf strukturierte Daten
 Abfrage aus Spark als “Resilient Distributed Datasets” (RDD):
SchemaRDDs als einheitliches Interface, mit integrierten APIs für
Python, Scala und Java
 Auch für die Abfrage aus Hive-Tabellen, Parquet- und JSON-Dateien
 Enthält Server-Modus für JDBC- und ODBC-Verbindungen
 Unterstützt Ausfalltoleranz während laufender Abfragen nach dem
RDD-Modell und skalliert auch für große Jobs: Eignung für interaktive
und langlaufende Abfragen (historische Daten)
 Mehr unter: https://spark.apache.org/sql/
Spark SQL

Enable
eXtreme
Performance.
Fallbeispiel aus Kundenprojekt

Enable
eXtreme
Performance.
 Ziel
 Daten von Servicecalls (OSB) auswerten
 Daten Historisieren
 Feststellen von Anomalien
 Mappen von Strukturierten und Unstrukturierten Daten
 Tabellen/View und Datei Import
 Auswertung mit ausgewählten Werkzeugen
Analyse von Infrastrukturdaten
HDFS
Analytic
output
Weblogs
CC
RDBMS
Flume SQOOP
YARN/MR
• R
• Elasticsearch

Enable
eXtreme
Performance.
 Wahl der Hadoop Distribution
 Cloudera – Oracle supported
 Ohne -> sehr aufwendig
 Filedaten
 Flume
 Weblogic und Apache Logs
 Gut dokumentiert im Netz
 Ggf. Realtime Auswertung mit Elasticsearch or Solr
 Hive
 CDH 5.1
 OCRFile Format
Vorbereitung

Enable
eXtreme
Performance.
 Optimized Row Columnar File Format
 light-weight indexes bereits im Fileformat
 block-mode compression auf basis des Datentyps
Hive ORCFile
TPC-DS Scale 500 Dataset GB, Hortonworks
585
• Encoded Text
• CSV File
505
• RCFile
• Record Columnar File
221
• Parquet
• Columnar Storage Format, impala
131
• ORCFile
• Hive
Größenvergleich
über
verschiedene
Typen

Enable
eXtreme
Performance.
 Teil 1 Datenladen
 Teil 2
Create Big Data SQL Layer
Ablauf Datenintegration
DB
HDFS
HIVE
Oracle Big Data SQL

Enable
eXtreme
Performance.
Prozess Teil 1
DB
HDFS
HIVE
• Start sqoop job to HDFS
• Create external table on
HDFS Files
• insert as select in hive ocr
data table
• Import parallel 1, da view daten
• Kein primary key, keine parallelen MapReduce Prozesse
• Direct read notwendig, da sonst tmp Tablespace zu klein
• Start mit sqoop2, ende mit sqoop1 inklusiv Optimierung
• ODI statt oozie

Enable
eXtreme
Performance.
 Suche Tabelle in Hive aus DB
 select table_name, input_format, Location from ALL_HIVE_tables
where table_name like '%oem%';
Prozess Teil 2

Enable
eXtreme
Performance.
 Create Table in DB (nur in Test VM)
 DDL mit CREATE_EXTDDL_FOR_HIVE erzeugen
 DDL ausführen
Prozess Teil 2
dbms_hadoop.create_extddl_for_hive(
CLUSTER_ID=>'bigdatalite',
DB_NAME=>'default',
HIVE_TABLE_NAME=>'oem_data',
HIVE_PARTITION=>FALSE,
TABLE_NAME=>'oem_data',
PERFORM_DDL=>FALSE,
TEXT_OF_DDL=>DDLout
);
CREATE TABLE OEM_DATA ( target_name
VARCHAR2(4000), target_guid …..
key_value6 VARCHAR2(4000),
collection_timestamp VARCHAR2(4000))
ORGANIZATION EXTERNAL
(TYPE ORACLE_HIVE
DEFAULT DIRECTORY DEFAULT_DIR
ACCESS PARAMETERS (
com.oracle.bigdata.cluster=bigdatalite
com.oracle.bigdata.tablename=default.oem_
data)
) ;
DDL Erzeugen
DDL Ausführen

Enable
eXtreme
Performance.
Ausführungsplan

Enable
eXtreme
Performance.
 Daten für einen Tag
 ~ 239.634.928 Zeilen/12 Spalten
 TXT Files
~100 G unkomprimiert
Ladezeit ca. 1h aus CC DB
 OCR Files in hive
~ 27 M komprimiert
~ Ladezeit ca. 30 Minuten
Ergebnisse: Laden der Daten
Type Größe Select
count
Where
Oem_data BigDataSQL 2,8 MB
2,1 Mio
11s 8s
Oem_data local
kopiert
Oracle 558 MB
2,1 Mio
0,5s 0,5s
Oem_data Hive 57s 50s
Teil 1
Teil 2

Enable
eXtreme
Performance.
 Only data retrieval (TABLE ACCESS FULL und Filter ) werden
offloaded!
 Datenbearbeitung im DB Layer
 GROUP BY, ORDER BY, JOIN, PL/SQL etc
 BigDataSQL 2.0 (Aggregation in Hadoop?)
 Alternativ Connect über ODBC
Lastverteilung Big Data SQL
Tool Beschreibung Decompress
CPU
Filtering CPU Datatype
Conversion
Sqoop Hadoop Oracle Oracle
Oracle SQL
Connector
für HDFS
Text Dateien HDFS
oder DataPump
HDFS
Oracle Oracle
Big Data
SQL
12c
Exadata&BDA
Hadoop Hadoop Hadoop
ODBC Hadoop Hadoop Oracle

Enable
eXtreme
Performance.
Zusammenfassung
Exadata €€€
DB/EMC €€€
Integration Layer
Exadata €
DB/EMC €
Hadoop
€
Vorher:
Nacher:

Enable
eXtreme
Performance.
Q & A

Logical Data Warehouse - SQL mit Oracle DB und Hadoop

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie Logical Data Warehouse - SQL mit Oracle DB und Hadoop

Ähnlich wie Logical Data Warehouse - SQL mit Oracle DB und Hadoop (20)

Mehr von OPITZ CONSULTING Deutschland

Mehr von OPITZ CONSULTING Deutschland (20)

Logical Data Warehouse - SQL mit Oracle DB und Hadoop