http://www.opitz-consulting.com/go/3-2-11
SQL ist im Rahmen von Big Data die Basis, um Daten zu analysieren. Neben relationalen Datenbanken werden mit Big Data auch Daten aus Hadoop, NoSQL oder anderen Quellen im Data Warehouse integriert. Kann hier SQL verwendet werden?
Der Begriff des Logical Data Warehouse beschreibt die Architektur des Datawarehouses mit verschiedenartigen Quellen. Man beschränkt sich nicht mehr auf eine einzelne Datenbank, sondern integriert weitere Datenspeicher. Hadoop spielt in diesem Zusammenhang eine große Rolle.
Wie kann eine Kombination von Oracle Datenbank und Hadoop implementiert werden? Wie werden die Daten zwischen den Systemen ausgetauscht? Wie können alle Daten mit SQL analysiert werden?
In ihrem Vortrag bei der DOAG Business Intelligence Konferenz 2015 erklärten unser IT-Experte Ingo Reisky und Matthias Fuchs von ise Informatik, wie die einzelnen Komponenten von Hadoop mit SQL abgefragt werden können und welche Innovation Oracle an dieser Stelle bietet. Die Referenten stellten Hadoop Tools wie SQOOP, HIVE, Spark, Oozie und die Connectoren bzw. BigDataSQL von Oracle vor und zeigten wie SQL zur Analytik verwendet werden kann.
--
Über uns:
Als führender Projektspezialist für ganzheitliche IT-Lösungen tragen wir zur Wertsteigerung der Organisationen unserer Kunden bei und bringen IT und Business in Einklang. Mit OPITZ CONSULTING als zuverlässigem Partner können sich unsere Kunden auf ihr Kerngeschäft konzentrieren und ihre Wettbewerbsvorteile nachhaltig absichern und ausbauen.
Über unsere IT-Beratung: http://www.opitz-consulting.com/go/3-8-10
Unser Leistungsangebot: http://www.opitz-consulting.com/go/3-8-874
Karriere bei OPITZ CONSULTING: http://www.opitz-consulting.com/go/3-8-5
Effiziente Betriebsoptimierung durch Cloud Nutzung
Logical Data Warehouse - SQL mit Oracle DB und Hadoop
1. www.ise-informatik.de
Logical Data Warehouse
SQL mit Oracle DB und Hadoop
Matthias Fuchs
DWH Architekt
ISE Information Systems Engineering GmbH
Ingo Reisky
Senior Consultant
Opitz Consulting Deutschland GmbH
2. www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 2
Enable
eXtreme
Performance.
ISE Information Systems Engineering
Gegründet 1991
Mitarbeiteranzahl: 60
Hauptsitz in Gräfenberg, Niederlassungen in München und Nürnberg
Schwerpunkte:
Oracle Engineered Systems (Exadata / Exalogic / Exalytics)
Data Warehousing & Business Intelligence
Oracle DB – Migrationen, Optimierungen, Hochverfügbarkeit
Managed Service für Datenbanken, BI und Middlewareapplikationen
Oracle Partner Engineered Systems Award 2013
3. www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 3
Enable
eXtreme
Performance.
Erstes und einziges Exastack Technology Center in
Deutschland in Nürnberg
ISE Oracle Technology Center
Coming soon ODA X5
6. www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 6
Enable
eXtreme
Performance.
Matthias Fuchs
- Senior Consultant
Infrastructure&Database
- 10 Jahre Oracle-Erfahrung
- OCP, Exadata Certified
- Focus on DWH, Audit,
Security in Oracle DB and
Oracle Exa Systems
Bio
Ingo Reisky
- Senior Consultant im
Infrastructure Consulting
bei OPITZ CONSULTING
- Mitglied OC-CC Big Data
- Dipl.-Wirtschaftsingenieur
Univ. Karlsruhe (TH)
- OCP, LPIC-2, RHCT, …
- Fusion MW Spezialist:
Oracle Weblogic Server,
SOA Suite, Enterprise
Manager Cloud Control
7. www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 7
Enable
eXtreme
Performance.
Agenda
LDW - Logical Data Warehouse
Big Data SQL Infrastructure
Sqoop - der Anfang
Fallbeispiel aus Kundenprojekt
9. www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 9
Enable
eXtreme
Performance.
Logical Data Warehouse
Gartner Hype Cycle for Information Infrastructure, 2012,
“the Logical Data Warehouse (LDW) is a new data
management architecture for analytics which combines the
strengths of traditional repository warehouses with
alternative data management and access strategy. The
LDW will form a new best practices by the end of 2015.”
10. www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 10
Enable
eXtreme
Performance.
Repository Management
Verschiedene Typen u.a. Metadaten
Konsolidierung
Data Virtualization
Virtuelle Daten Schicht
Distributed Processes
Aufruf externer Prozesse
z.B. Bilder oder Content Analyse, aber auch MapReduce
Cloud
Auditing statistics and performance Evaluation
Statistik über Performance
End User, Applikationen oder Verbindungen
SLA Management
Metadataset über erwartete Ausführungenzeiten etc.
Überwachung und ggf. Änderung der Ausführung
Taxonomy - Ontology resolution
a taxonomy “tree” in an ontological “forest”
Metadata Management
Gartner: Logical Data Warehouse
11. www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 11
Enable
eXtreme
Performance.
Repository Management
Verschiedene Typen u.a. Metadaten
Konsolidierung
Data Virtualization
Virtuelle Daten Schicht
Distributed Processes
Aufruf externer Prozesse
z.B. Bilder oder Content Analyse, aber auch MapReduce
Cloud
Auditing statistics and performance Evaluation
Statistik über Performance
End User, Applikationen oder Verbindungen
SLA Management
Metadataset über erwartete Ausführungenzeiten etc.
Überwachung und ggf. Änderung der Ausführung
Taxonomy - Ontology resolution
a taxonomy “tree” in an ontological “forest”
Metadata Management
Gartner: Logical Data Warehouse
‚Data-to-insight cycle ' schneller
günstiges Framework um neue
Inhalte einzubeziehen
Höhere Flexibilität
12. www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 12
Enable
eXtreme
Performance.
Gartner: Übersicht
Aus Gartner Newsletter Logical Data Warehousing for Big Data
15. www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 15
Enable
eXtreme
Performance.
First LDW Implementationen
SLA Management Audit Management
Virtual.
.
Hadoop
16. www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 16
Enable
eXtreme
Performance.
Innovation: Oracle Big Data SQL
Erweitert Oracle SQL für Oracle DB, NoSQL und Hadoop!
Daten aus heterogenen Quellen
17. www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 17
Enable
eXtreme
Performance.
Big Data Sql - Übersicht
Oracle Big Data SQL
Cloudera
Hadoop
NOSQL
R Advanced
Analytics
Exadata
Advanced
Analytics
Advanced
Security
Connectors
ODI
Or BigData Lite VM
18. www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 18
Enable
eXtreme
Performance.
Big Data Systemübersicht
Storage Layer
Filesystem (HDFS)
Resource Management YARN + MapReduce
Processing Layer
Big Data SQL
19. www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 19
Enable
eXtreme
Performance.
Big Data und DB im LDW
ODI, BPM, SOA
Enterprise Metadata
Management
Oracle Big Data
Appliance
Repository Management
Data Virtualization
Distributed Processes
Auditing statistics and performance
SLA Management
Taxonomy - Ontology resolution
21. www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 22
Enable
eXtreme
Performance.
Sqoop = SQL- to - Hadoop
Paralleles kopieren von JDBC <-> HDFS
MapReduce jobs zum Daten laden/schreiben
Sqoop
DB
HDFS
Map
Reduce
22. www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 23
Enable
eXtreme
Performance.
OraOOP Guy Harrison team Quest (Dell)
Ab version 1.4.5 (CDH 5.1)
Oracle direct path (non-buffered) IO for all reads
Auf mappers werden Anzahl Blöcke verteilt
Bei partitionierten Tabellen, kann der Mapper pro Partition arbeiten
Sqoop mit Oracle
ORACLE
TABLE
HDFS HADOOP
MAPPER
ORACLE
SESSION
HADOOP
MAPPER
ORACLE
SESSION
23. www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 24
Enable
eXtreme
Performance.
Sqoop 1 vs. Sqoop 2
Sqoop 1 Sqoop 2
Kerberos Security, RDBMS
connectors, transfer to hive
Jdbc Connection
Client startet Map jobs Service based, DB Treiber
auf dem Server
MAP only MAPReduce
Client mit connection
Details
Vorkonfigurierte
datasources
Durch quest Oracle direct
Treiber implementiert
Oracle direct connector
geplant 1.99.7
(aktuell1.99.5)
24. www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 25
Enable
eXtreme
Performance.
Auszug aus Roadmap Sqoop 2, Version 1.99.7:
https://cwiki.apache.org/confluence/display/SQOOP/Sqoop+2+Roadmap
“In this release, let’s focus on developing new connectors and
execution engines.
HBase connector
Hive connector
HCatalog connector (Or is this the same as Hive connector?)
MySQL fast connector
PostgreSQL fast connector
Oracle fast connector
Netezza connector
Teradata connector (?)
Spark execution engine”
Ausblick: Sqoop 2 Roadmap
25. www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 26
Enable
eXtreme
Performance.
Oracle Data Integrator
Sqoop loads beide Richtungen
Integration Knowledge Modules
Oracle SQL Connector
External Table
Hive oder HDFS to Oracle
Oracle Loader for Hadoop
Load data to Oracle
Prepare data and load to Oracle
https://docs.oracle.com/cd/E57371_01/doc.41/e57352/start.htm#BDCUG261
Big Data Connector
26. www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 27
Enable
eXtreme
Performance.
Oracle SQLConnector
http://www.oracle.com/us/products/database/big-data-connectors/certifications/index.html
27. www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 28
Enable
eXtreme
Performance.
Oracle Change Data Capture
Supported in 11.2 – but not recommended by Oracle
Desupported in 12.1
Oracle Golden Gate
1. RDBMS to HIVE
2. RDBMS to Flume
3. RDBMS to HDFS
Andere Hersteller:
(Dell) Quest SharePlex – Auslesen redologs
(VMWare) Continuent Tungsten – benutzt CDC im Hintergrund
Libelle
Real Time
29. www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 30
Enable
eXtreme
Performance.
Zahlreiche Möglichkeiten, mit „R“ strukturierte Daten abzufragen
Verbindung mit R gegen Oracle DB
Package ROracle (mit Oracle Client/Instant Client)
http://www.oracle.com/technetwork/database/database-
technologies/r/roracle/overview/index.html
Verbindung mit R gegen Apache Hadoop oder Hive
Packages in RHadoop (R gegen HDFS, HBase, …):
https://github.com/RevolutionAnalytics/RHadoop/wiki
RHIPE: Integrierte R- und Hadoop-Umgebung
Package RHive: HiveQL (HQL, ähnlich SQL) gegen Hive
R in der Oracle DB oder In Hive:
Advanced Analytics Option (AAO)
http://www.oracle.com/technetwork/database/options/advanced-
analytics/overview/index.html
R und SQL
30. www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 31
Enable
eXtreme
Performance.
Apache Spark ist eine alternative Execution Engine für Hadoop
(neben MapReduce und Tez) oder Stand-alone: schnell!
Spark SQL: Modul für den Zugriff auf strukturierte Daten
Abfrage aus Spark als “Resilient Distributed Datasets” (RDD):
SchemaRDDs als einheitliches Interface, mit integrierten APIs für
Python, Scala und Java
Auch für die Abfrage aus Hive-Tabellen, Parquet- und JSON-Dateien
Enthält Server-Modus für JDBC- und ODBC-Verbindungen
Unterstützt Ausfalltoleranz während laufender Abfragen nach dem
RDD-Modell und skalliert auch für große Jobs: Eignung für interaktive
und langlaufende Abfragen (historische Daten)
Mehr unter: https://spark.apache.org/sql/
Spark SQL
32. www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 33
Enable
eXtreme
Performance.
Ziel
Daten von Servicecalls (OSB) auswerten
Daten Historisieren
Feststellen von Anomalien
Mappen von Strukturierten und Unstrukturierten Daten
Tabellen/View und Datei Import
Auswertung mit ausgewählten Werkzeugen
Analyse von Infrastrukturdaten
HDFS
Analytic
output
Weblogs
CC
RDBMS
Flume SQOOP
YARN/MR
• R
• Elasticsearch
33. www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 34
Enable
eXtreme
Performance.
Wahl der Hadoop Distribution
Cloudera – Oracle supported
Ohne -> sehr aufwendig
Filedaten
Flume
Weblogic und Apache Logs
Gut dokumentiert im Netz
Ggf. Realtime Auswertung mit Elasticsearch or Solr
Hive
CDH 5.1
OCRFile Format
Vorbereitung
34. www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 35
Enable
eXtreme
Performance.
Optimized Row Columnar File Format
light-weight indexes bereits im Fileformat
block-mode compression auf basis des Datentyps
Hive ORCFile
TPC-DS Scale 500 Dataset GB, Hortonworks
585
• Encoded Text
• CSV File
505
• RCFile
• Record Columnar File
221
• Parquet
• Columnar Storage Format, impala
131
• ORCFile
• Hive
Größenvergleich
über
verschiedene
Typen
35. www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 36
Enable
eXtreme
Performance.
Teil 1 Datenladen
Teil 2
Create Big Data SQL Layer
Ablauf Datenintegration
DB
HDFS
HIVE
Oracle Big Data SQL
36. www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 37
Enable
eXtreme
Performance.
Prozess Teil 1
DB
HDFS
HIVE
• Start sqoop job to HDFS
• Create external table on
HDFS Files
• insert as select in hive ocr
data table
• Import parallel 1, da view daten
• Kein primary key, keine parallelen MapReduce Prozesse
• Direct read notwendig, da sonst tmp Tablespace zu klein
• Start mit sqoop2, ende mit sqoop1 inklusiv Optimierung
• ODI statt oozie
37. www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 38
Enable
eXtreme
Performance.
Suche Tabelle in Hive aus DB
select table_name, input_format, Location from ALL_HIVE_tables
where table_name like '%oem%';
Prozess Teil 2
38. www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 39
Enable
eXtreme
Performance.
Create Table in DB (nur in Test VM)
DDL mit CREATE_EXTDDL_FOR_HIVE erzeugen
DDL ausführen
Prozess Teil 2
dbms_hadoop.create_extddl_for_hive(
CLUSTER_ID=>'bigdatalite',
DB_NAME=>'default',
HIVE_TABLE_NAME=>'oem_data',
HIVE_PARTITION=>FALSE,
TABLE_NAME=>'oem_data',
PERFORM_DDL=>FALSE,
TEXT_OF_DDL=>DDLout
);
CREATE TABLE OEM_DATA ( target_name
VARCHAR2(4000), target_guid …..
key_value6 VARCHAR2(4000),
collection_timestamp VARCHAR2(4000))
ORGANIZATION EXTERNAL
(TYPE ORACLE_HIVE
DEFAULT DIRECTORY DEFAULT_DIR
ACCESS PARAMETERS (
com.oracle.bigdata.cluster=bigdatalite
com.oracle.bigdata.tablename=default.oem_
data)
) ;
DDL Erzeugen
DDL Ausführen
40. www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 41
Enable
eXtreme
Performance.
Daten für einen Tag
~ 239.634.928 Zeilen/12 Spalten
TXT Files
~100 G unkomprimiert
Ladezeit ca. 1h aus CC DB
OCR Files in hive
~ 27 M komprimiert
~ Ladezeit ca. 30 Minuten
Ergebnisse: Laden der Daten
Type Größe Select
count
Where
Oem_data BigDataSQL 2,8 MB
2,1 Mio
11s 8s
Oem_data local
kopiert
Oracle 558 MB
2,1 Mio
0,5s 0,5s
Oem_data Hive 57s 50s
Teil 1
Teil 2
41. www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 42
Enable
eXtreme
Performance.
Only data retrieval (TABLE ACCESS FULL und Filter ) werden
offloaded!
Datenbearbeitung im DB Layer
GROUP BY, ORDER BY, JOIN, PL/SQL etc
BigDataSQL 2.0 (Aggregation in Hadoop?)
Alternativ Connect über ODBC
Lastverteilung Big Data SQL
Tool Beschreibung Decompress
CPU
Filtering CPU Datatype
Conversion
Sqoop Hadoop Oracle Oracle
Oracle SQL
Connector
für HDFS
Text Dateien HDFS
oder DataPump
HDFS
Oracle Oracle
Big Data
SQL
12c
Exadata&BDA
Hadoop Hadoop Hadoop
ODBC Hadoop Hadoop Oracle
42. www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 43
Enable
eXtreme
Performance.
Zusammenfassung
Exadata €€€
DB/EMC €€€
Integration Layer
Exadata €
DB/EMC €
Hadoop
€
Vorher:
Nacher: