www.ise-informatik.de
Logical Data Warehouse
SQL mit Oracle DB und Hadoop
Matthias Fuchs
DWH Architekt
ISE Information Sys...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 2
Enable
eXtreme
Performance.
ISE Information Systems E...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 3
Enable
eXtreme
Performance.
Erstes und einziges Exast...
© OPITZ CONSULTING Deutschland GmbH 2015 Seite 4
Mission
Wir entwickeln gemeinsam mit allen
Branchen Lösungen, die dazu fü...
© OPITZ CONSULTING Deutschland GmbH 2015 Seite 5
Wie OPITZ CONSULTING Big Data versteht
 Wir helfen Kunden,
 die Möglich...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 6
Enable
eXtreme
Performance.
 Matthias Fuchs
- Senior...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 7
Enable
eXtreme
Performance.
Agenda
 LDW - Logical Da...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 8
Enable
eXtreme
Performance.
LDW – Logical Data Wareho...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 9
Enable
eXtreme
Performance.
Logical Data Warehouse
Ga...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 10
Enable
eXtreme
Performance.
 Repository Management
...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 11
Enable
eXtreme
Performance.
 Repository Management
...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 12
Enable
eXtreme
Performance.
Gartner: Übersicht
Aus G...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 13
Enable
eXtreme
Performance.
Big Data SQL Infrastruct...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 14
Enable
eXtreme
Performance.
Logische Implementation
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 15
Enable
eXtreme
Performance.
First LDW Implementation...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 16
Enable
eXtreme
Performance.
 Innovation: Oracle Big...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 17
Enable
eXtreme
Performance.
Big Data Sql - Übersicht...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 18
Enable
eXtreme
Performance.
Big Data Systemübersicht...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 19
Enable
eXtreme
Performance.
Big Data und DB im LDW
O...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 21
Enable
eXtreme
Performance.
Daten in Hadoop laden
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 22
Enable
eXtreme
Performance.
 Sqoop = SQL- to - Hado...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 23
Enable
eXtreme
Performance.
 OraOOP Guy Harrison te...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 24
Enable
eXtreme
Performance.
Sqoop 1 vs. Sqoop 2
Sqoo...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 25
Enable
eXtreme
Performance.
 Auszug aus Roadmap Sqo...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 26
Enable
eXtreme
Performance.
 Oracle Data Integrator...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 27
Enable
eXtreme
Performance.
Oracle SQLConnector
http...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 28
Enable
eXtreme
Performance.
 Oracle Change Data Cap...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 29
Enable
eXtreme
Performance.
Noch mehr SQL auf Hadoop
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 30
Enable
eXtreme
Performance.
 Zahlreiche Möglichkeit...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 31
Enable
eXtreme
Performance.
 Apache Spark ist eine ...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 32
Enable
eXtreme
Performance.
Fallbeispiel aus Kundenp...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 33
Enable
eXtreme
Performance.
 Ziel
 Daten von Servi...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 34
Enable
eXtreme
Performance.
 Wahl der Hadoop Distri...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 35
Enable
eXtreme
Performance.
 Optimized Row Columnar...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 36
Enable
eXtreme
Performance.
 Teil 1 Datenladen
 Te...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 37
Enable
eXtreme
Performance.
Prozess Teil 1
DB
HDFS
H...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 38
Enable
eXtreme
Performance.
 Suche Tabelle in Hive ...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 39
Enable
eXtreme
Performance.
 Create Table in DB (nu...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 40
Enable
eXtreme
Performance.
Ausführungsplan
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 41
Enable
eXtreme
Performance.
 Daten für einen Tag
 ...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 42
Enable
eXtreme
Performance.
 Only data retrieval (T...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 43
Enable
eXtreme
Performance.
Zusammenfassung
Exadata ...
www.ise-informatik.de
Copyright (C) ISE GmbH - All Rights Reserved 44
Enable
eXtreme
Performance.
Q & A
Nächste SlideShare
Wird geladen in …5
×

Logical Data Warehouse - SQL mit Oracle DB und Hadoop

1.366 Aufrufe

Veröffentlicht am

http://www.opitz-consulting.com/go/3-2-11

SQL ist im Rahmen von Big Data die Basis, um Daten zu analysieren. Neben relationalen Datenbanken werden mit Big Data auch Daten aus Hadoop, NoSQL oder anderen Quellen im Data Warehouse integriert. Kann hier SQL verwendet werden?

Der Begriff des Logical Data Warehouse beschreibt die Architektur des Datawarehouses mit verschiedenartigen Quellen. Man beschränkt sich nicht mehr auf eine einzelne Datenbank, sondern integriert weitere Datenspeicher. Hadoop spielt in diesem Zusammenhang eine große Rolle.
Wie kann eine Kombination von Oracle Datenbank und Hadoop implementiert werden? Wie werden die Daten zwischen den Systemen ausgetauscht? Wie können alle Daten mit SQL analysiert werden?

In ihrem Vortrag bei der DOAG Business Intelligence Konferenz 2015 erklärten unser IT-Experte Ingo Reisky und Matthias Fuchs von ise Informatik, wie die einzelnen Komponenten von Hadoop mit SQL abgefragt werden können und welche Innovation Oracle an dieser Stelle bietet. Die Referenten stellten Hadoop Tools wie SQOOP, HIVE, Spark, Oozie und die Connectoren bzw. BigDataSQL von Oracle vor und zeigten wie SQL zur Analytik verwendet werden kann.

--
Über uns:
Als führender Projektspezialist für ganzheitliche IT-Lösungen tragen wir zur Wertsteigerung der Organisationen unserer Kunden bei und bringen IT und Business in Einklang. Mit OPITZ CONSULTING als zuverlässigem Partner können sich unsere Kunden auf ihr Kerngeschäft konzentrieren und ihre Wettbewerbsvorteile nachhaltig absichern und ausbauen.

Über unsere IT-Beratung: http://www.opitz-consulting.com/go/3-8-10
Unser Leistungsangebot: http://www.opitz-consulting.com/go/3-8-874
Karriere bei OPITZ CONSULTING: http://www.opitz-consulting.com/go/3-8-5

Veröffentlicht in: Technologie
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
1.366
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
17
Aktionen
Geteilt
0
Downloads
7
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Logical Data Warehouse - SQL mit Oracle DB und Hadoop

  1. 1. www.ise-informatik.de Logical Data Warehouse SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky Senior Consultant Opitz Consulting Deutschland GmbH
  2. 2. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 2 Enable eXtreme Performance. ISE Information Systems Engineering  Gegründet 1991  Mitarbeiteranzahl: 60  Hauptsitz in Gräfenberg, Niederlassungen in München und Nürnberg  Schwerpunkte:  Oracle Engineered Systems (Exadata / Exalogic / Exalytics)  Data Warehousing & Business Intelligence  Oracle DB – Migrationen, Optimierungen, Hochverfügbarkeit  Managed Service für Datenbanken, BI und Middlewareapplikationen  Oracle Partner Engineered Systems Award 2013
  3. 3. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 3 Enable eXtreme Performance. Erstes und einziges Exastack Technology Center in Deutschland in Nürnberg ISE Oracle Technology Center Coming soon ODA X5
  4. 4. © OPITZ CONSULTING Deutschland GmbH 2015 Seite 4 Mission Wir entwickeln gemeinsam mit allen Branchen Lösungen, die dazu führen, dass sich diese Organisationen besser entwickeln als ihr Wettbewerb. Unsere Dienstleistung erfolgt partnerschaftlich und ist auf eine langjährige Zusammenarbeit angelegt. Leistungsangebot Business IT Alignment Business Information Management Business Process Management Anwendungsentwicklung SOA und System-Integration IT-Infrastruktur-Management Märkte Branchenübergreifend Über 600 Kunden 29% Industrie / Versorger / Telekommunikation 29% Handel / Logistik / Dienstleistungen 42% Öffentliche Auftraggeber / Banken und Versicherungen / Vereine und Verbände Eckdaten Gründung 1990 400 Mitarbeiter 9 Standorte Vorstellung OPITZ CONSULTING
  5. 5. © OPITZ CONSULTING Deutschland GmbH 2015 Seite 5 Wie OPITZ CONSULTING Big Data versteht  Wir helfen Kunden,  die Möglichkeiten von Big Data zu verstehen  Business Cases in ihrem Unternehmen zu erkennen und ganzheitlich unter Berücksichtigung bestehender Architekturen zu bewerten  Projekte zielorientiert aufzusetzen und erfolgreich durchzuführen  Business Cases anhand von Proof of Concepts zu verifizieren.  Big Data ist bei OPITZ CONSULTING eines der TOP 3 Zukunftsthemen! Big Data = Alter Hut • IT-Durchdringung der Geschäftswelt steigt seit Beginn • Mooresche Gesetz gilt immer noch OPITZ CONSULTING1990 • Database-focused Company • große Datenmengen & komplexe Anforderungen OPITZ CONSULTINGt+25 • Individuallösungen, wenn Standard nicht ausreicht • Kontinuierliche Adaption neuer IT-Trends Big Data = Chance • Prozess- und Interessenstransparenz dank Maschine Data • Wettbewerbsvorteile dank Kombination (Mobile+ Big Data + Cloud + Analytics) 25
  6. 6. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 6 Enable eXtreme Performance.  Matthias Fuchs - Senior Consultant Infrastructure&Database - 10 Jahre Oracle-Erfahrung - OCP, Exadata Certified - Focus on DWH, Audit, Security in Oracle DB and Oracle Exa Systems Bio  Ingo Reisky - Senior Consultant im Infrastructure Consulting bei OPITZ CONSULTING - Mitglied OC-CC Big Data - Dipl.-Wirtschaftsingenieur Univ. Karlsruhe (TH) - OCP, LPIC-2, RHCT, … - Fusion MW Spezialist: Oracle Weblogic Server, SOA Suite, Enterprise Manager Cloud Control
  7. 7. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 7 Enable eXtreme Performance. Agenda  LDW - Logical Data Warehouse  Big Data SQL Infrastructure  Sqoop - der Anfang  Fallbeispiel aus Kundenprojekt
  8. 8. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 8 Enable eXtreme Performance. LDW – Logical Data Warehouse
  9. 9. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 9 Enable eXtreme Performance. Logical Data Warehouse Gartner Hype Cycle for Information Infrastructure, 2012, “the Logical Data Warehouse (LDW) is a new data management architecture for analytics which combines the strengths of traditional repository warehouses with alternative data management and access strategy. The LDW will form a new best practices by the end of 2015.”
  10. 10. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 10 Enable eXtreme Performance.  Repository Management  Verschiedene Typen u.a. Metadaten  Konsolidierung  Data Virtualization  Virtuelle Daten Schicht  Distributed Processes  Aufruf externer Prozesse  z.B. Bilder oder Content Analyse, aber auch MapReduce  Cloud  Auditing statistics and performance Evaluation  Statistik über Performance  End User, Applikationen oder Verbindungen  SLA Management  Metadataset über erwartete Ausführungenzeiten etc.  Überwachung und ggf. Änderung der Ausführung  Taxonomy - Ontology resolution  a taxonomy “tree” in an ontological “forest”  Metadata Management Gartner: Logical Data Warehouse
  11. 11. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 11 Enable eXtreme Performance.  Repository Management  Verschiedene Typen u.a. Metadaten  Konsolidierung  Data Virtualization  Virtuelle Daten Schicht  Distributed Processes  Aufruf externer Prozesse  z.B. Bilder oder Content Analyse, aber auch MapReduce  Cloud  Auditing statistics and performance Evaluation  Statistik über Performance  End User, Applikationen oder Verbindungen  SLA Management  Metadataset über erwartete Ausführungenzeiten etc.  Überwachung und ggf. Änderung der Ausführung  Taxonomy - Ontology resolution  a taxonomy “tree” in an ontological “forest”  Metadata Management Gartner: Logical Data Warehouse ‚Data-to-insight cycle ' schneller günstiges Framework um neue Inhalte einzubeziehen Höhere Flexibilität
  12. 12. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 12 Enable eXtreme Performance. Gartner: Übersicht Aus Gartner Newsletter Logical Data Warehousing for Big Data
  13. 13. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 13 Enable eXtreme Performance. Big Data SQL Infrastructure
  14. 14. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 14 Enable eXtreme Performance. Logische Implementation
  15. 15. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 15 Enable eXtreme Performance. First LDW Implementationen SLA Management Audit Management Virtual. . Hadoop
  16. 16. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 16 Enable eXtreme Performance.  Innovation: Oracle Big Data SQL  Erweitert Oracle SQL für Oracle DB, NoSQL und Hadoop! Daten aus heterogenen Quellen
  17. 17. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 17 Enable eXtreme Performance. Big Data Sql - Übersicht Oracle Big Data SQL Cloudera Hadoop NOSQL R Advanced Analytics Exadata Advanced Analytics Advanced Security Connectors ODI Or BigData Lite VM
  18. 18. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 18 Enable eXtreme Performance. Big Data Systemübersicht Storage Layer Filesystem (HDFS) Resource Management YARN + MapReduce Processing Layer Big Data SQL
  19. 19. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 19 Enable eXtreme Performance. Big Data und DB im LDW ODI, BPM, SOA Enterprise Metadata Management Oracle Big Data Appliance Repository Management Data Virtualization Distributed Processes Auditing statistics and performance SLA Management Taxonomy - Ontology resolution
  20. 20. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 21 Enable eXtreme Performance. Daten in Hadoop laden
  21. 21. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 22 Enable eXtreme Performance.  Sqoop = SQL- to - Hadoop  Paralleles kopieren von JDBC <-> HDFS  MapReduce jobs zum Daten laden/schreiben Sqoop DB HDFS Map Reduce
  22. 22. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 23 Enable eXtreme Performance.  OraOOP Guy Harrison team Quest (Dell)  Ab version 1.4.5 (CDH 5.1)  Oracle direct path (non-buffered) IO for all reads  Auf mappers werden Anzahl Blöcke verteilt  Bei partitionierten Tabellen, kann der Mapper pro Partition arbeiten Sqoop mit Oracle ORACLE TABLE HDFS HADOOP MAPPER ORACLE SESSION HADOOP MAPPER ORACLE SESSION
  23. 23. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 24 Enable eXtreme Performance. Sqoop 1 vs. Sqoop 2 Sqoop 1 Sqoop 2 Kerberos Security, RDBMS connectors, transfer to hive Jdbc Connection Client startet Map jobs Service based, DB Treiber auf dem Server MAP only MAPReduce Client mit connection Details Vorkonfigurierte datasources Durch quest Oracle direct Treiber implementiert Oracle direct connector geplant 1.99.7 (aktuell1.99.5)
  24. 24. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 25 Enable eXtreme Performance.  Auszug aus Roadmap Sqoop 2, Version 1.99.7: https://cwiki.apache.org/confluence/display/SQOOP/Sqoop+2+Roadmap  “In this release, let’s focus on developing new connectors and execution engines.  HBase connector  Hive connector  HCatalog connector (Or is this the same as Hive connector?)  MySQL fast connector  PostgreSQL fast connector  Oracle fast connector  Netezza connector  Teradata connector (?)  Spark execution engine” Ausblick: Sqoop 2 Roadmap
  25. 25. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 26 Enable eXtreme Performance.  Oracle Data Integrator  Sqoop loads beide Richtungen  Integration Knowledge Modules  Oracle SQL Connector  External Table  Hive oder HDFS to Oracle  Oracle Loader for Hadoop  Load data to Oracle  Prepare data and load to Oracle https://docs.oracle.com/cd/E57371_01/doc.41/e57352/start.htm#BDCUG261 Big Data Connector
  26. 26. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 27 Enable eXtreme Performance. Oracle SQLConnector http://www.oracle.com/us/products/database/big-data-connectors/certifications/index.html
  27. 27. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 28 Enable eXtreme Performance.  Oracle Change Data Capture  Supported in 11.2 – but not recommended by Oracle  Desupported in 12.1  Oracle Golden Gate  1. RDBMS to HIVE  2. RDBMS to Flume  3. RDBMS to HDFS  Andere Hersteller:  (Dell) Quest SharePlex – Auslesen redologs  (VMWare) Continuent Tungsten – benutzt CDC im Hintergrund  Libelle Real Time
  28. 28. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 29 Enable eXtreme Performance. Noch mehr SQL auf Hadoop
  29. 29. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 30 Enable eXtreme Performance.  Zahlreiche Möglichkeiten, mit „R“ strukturierte Daten abzufragen  Verbindung mit R gegen Oracle DB  Package ROracle (mit Oracle Client/Instant Client)  http://www.oracle.com/technetwork/database/database- technologies/r/roracle/overview/index.html  Verbindung mit R gegen Apache Hadoop oder Hive  Packages in RHadoop (R gegen HDFS, HBase, …): https://github.com/RevolutionAnalytics/RHadoop/wiki  RHIPE: Integrierte R- und Hadoop-Umgebung  Package RHive: HiveQL (HQL, ähnlich SQL) gegen Hive  R in der Oracle DB oder In Hive:  Advanced Analytics Option (AAO)  http://www.oracle.com/technetwork/database/options/advanced- analytics/overview/index.html R und SQL
  30. 30. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 31 Enable eXtreme Performance.  Apache Spark ist eine alternative Execution Engine für Hadoop (neben MapReduce und Tez) oder Stand-alone: schnell!  Spark SQL: Modul für den Zugriff auf strukturierte Daten  Abfrage aus Spark als “Resilient Distributed Datasets” (RDD): SchemaRDDs als einheitliches Interface, mit integrierten APIs für Python, Scala und Java  Auch für die Abfrage aus Hive-Tabellen, Parquet- und JSON-Dateien  Enthält Server-Modus für JDBC- und ODBC-Verbindungen  Unterstützt Ausfalltoleranz während laufender Abfragen nach dem RDD-Modell und skalliert auch für große Jobs: Eignung für interaktive und langlaufende Abfragen (historische Daten)  Mehr unter: https://spark.apache.org/sql/ Spark SQL
  31. 31. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 32 Enable eXtreme Performance. Fallbeispiel aus Kundenprojekt
  32. 32. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 33 Enable eXtreme Performance.  Ziel  Daten von Servicecalls (OSB) auswerten  Daten Historisieren  Feststellen von Anomalien  Mappen von Strukturierten und Unstrukturierten Daten  Tabellen/View und Datei Import  Auswertung mit ausgewählten Werkzeugen Analyse von Infrastrukturdaten HDFS Analytic output Weblogs CC RDBMS Flume SQOOP YARN/MR • R • Elasticsearch
  33. 33. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 34 Enable eXtreme Performance.  Wahl der Hadoop Distribution  Cloudera – Oracle supported  Ohne -> sehr aufwendig  Filedaten  Flume  Weblogic und Apache Logs  Gut dokumentiert im Netz  Ggf. Realtime Auswertung mit Elasticsearch or Solr  Hive  CDH 5.1  OCRFile Format Vorbereitung
  34. 34. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 35 Enable eXtreme Performance.  Optimized Row Columnar File Format  light-weight indexes bereits im Fileformat  block-mode compression auf basis des Datentyps Hive ORCFile TPC-DS Scale 500 Dataset GB, Hortonworks 585 • Encoded Text • CSV File 505 • RCFile • Record Columnar File 221 • Parquet • Columnar Storage Format, impala 131 • ORCFile • Hive Größenvergleich über verschiedene Typen
  35. 35. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 36 Enable eXtreme Performance.  Teil 1 Datenladen  Teil 2 Create Big Data SQL Layer Ablauf Datenintegration DB HDFS HIVE Oracle Big Data SQL
  36. 36. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 37 Enable eXtreme Performance. Prozess Teil 1 DB HDFS HIVE • Start sqoop job to HDFS • Create external table on HDFS Files • insert as select in hive ocr data table • Import parallel 1, da view daten • Kein primary key, keine parallelen MapReduce Prozesse • Direct read notwendig, da sonst tmp Tablespace zu klein • Start mit sqoop2, ende mit sqoop1 inklusiv Optimierung • ODI statt oozie
  37. 37. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 38 Enable eXtreme Performance.  Suche Tabelle in Hive aus DB  select table_name, input_format, Location from ALL_HIVE_tables where table_name like '%oem%'; Prozess Teil 2
  38. 38. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 39 Enable eXtreme Performance.  Create Table in DB (nur in Test VM)  DDL mit CREATE_EXTDDL_FOR_HIVE erzeugen  DDL ausführen Prozess Teil 2 dbms_hadoop.create_extddl_for_hive( CLUSTER_ID=>'bigdatalite', DB_NAME=>'default', HIVE_TABLE_NAME=>'oem_data', HIVE_PARTITION=>FALSE, TABLE_NAME=>'oem_data', PERFORM_DDL=>FALSE, TEXT_OF_DDL=>DDLout ); CREATE TABLE OEM_DATA ( target_name VARCHAR2(4000), target_guid ….. key_value6 VARCHAR2(4000), collection_timestamp VARCHAR2(4000)) ORGANIZATION EXTERNAL (TYPE ORACLE_HIVE DEFAULT DIRECTORY DEFAULT_DIR ACCESS PARAMETERS ( com.oracle.bigdata.cluster=bigdatalite com.oracle.bigdata.tablename=default.oem_ data) ) ; DDL Erzeugen DDL Ausführen
  39. 39. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 40 Enable eXtreme Performance. Ausführungsplan
  40. 40. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 41 Enable eXtreme Performance.  Daten für einen Tag  ~ 239.634.928 Zeilen/12 Spalten  TXT Files ~100 G unkomprimiert Ladezeit ca. 1h aus CC DB  OCR Files in hive ~ 27 M komprimiert ~ Ladezeit ca. 30 Minuten Ergebnisse: Laden der Daten Type Größe Select count Where Oem_data BigDataSQL 2,8 MB 2,1 Mio 11s 8s Oem_data local kopiert Oracle 558 MB 2,1 Mio 0,5s 0,5s Oem_data Hive 57s 50s Teil 1 Teil 2
  41. 41. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 42 Enable eXtreme Performance.  Only data retrieval (TABLE ACCESS FULL und Filter ) werden offloaded!  Datenbearbeitung im DB Layer  GROUP BY, ORDER BY, JOIN, PL/SQL etc  BigDataSQL 2.0 (Aggregation in Hadoop?)  Alternativ Connect über ODBC Lastverteilung Big Data SQL Tool Beschreibung Decompress CPU Filtering CPU Datatype Conversion Sqoop Hadoop Oracle Oracle Oracle SQL Connector für HDFS Text Dateien HDFS oder DataPump HDFS Oracle Oracle Big Data SQL 12c Exadata&BDA Hadoop Hadoop Hadoop ODBC Hadoop Hadoop Oracle
  42. 42. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 43 Enable eXtreme Performance. Zusammenfassung Exadata €€€ DB/EMC €€€ Integration Layer Exadata € DB/EMC € Hadoop € Vorher: Nacher:
  43. 43. www.ise-informatik.de Copyright (C) ISE GmbH - All Rights Reserved 44 Enable eXtreme Performance. Q & A

×