Nachdem in den letzten Jahren NoSQL ein beherrschendes Thema im Kontext von Big Data war, gewinnt SQL als Anfragesprache wieder große Bedeutung im Hadoop-Umfeld. Dabei steht mit Hive ein SQL-Dialekt zur Verfügung, mit dem zwar leicht Batch-orientierte ETL-Strecken für Hadoop gebaut werden können, der aber bisher für interaktive Analysen nicht geeignet war Mit Impala, Presto, Spark SQL und dem Stinger-Projekt ändert sich das nun rapide. Schnelle verteilte Query Engines erlauben interaktive analytische Anfragen auf großen Datenmengen. Dazu kommen neue Speicherformate wie Parquet und ORC, die effizientere Repräsentation und schnelleren Zugriff versprechen. In dieser Session geben wir einen Überblick über Stärken und Schwächen der verschiedenen Ansätze und berichten praktische Erfahrungen aus Projekten zur Integration mit Open Source und kommerziellen BI-Lösungen.
Speaker: Hans-Peter Zorn und Dominik Benz, inovex GmbH, Karlsruhe
Mehr Vorträge: https://www.inovex.de/de/content-pool/vortraege/
8. 8
Hive
ursprünglich von Facebook
• ursprünglich von Facebook
• Compiliert HiveQL, ein SQL-Dialekt, zu
MapReduce-Jobs
• Schema wird separat zu den Daten
abgelegt: Metastore
28. 28
Resume I
Zahlen noch unzuverlässig
Schnell
Ausgereift
Connectivity
Sprach-
UmfangHive
PrestoImpala
Drill
Tez/Spark
Tajo
29. Resumé
• Extrem schnell wachsendes, sich änderndes
Umfeld.
• Unübersichtlich
• Keine „One-Size-Fits-All“ Lösung bisher
• Anhand des individuellen Anwendungsfalles zu
evaluieren.
30. 30
Kontakt
!
Hans-Peter Zorn
Data Management & Analytics
!
inovex GmbH
Office Karlsruhe
Ludwig-Erhard-Allee 6
76131 Karlsruhe
!
0173 31 81 093
hzorn@inovex.de
!
Vielen Dank für Eure Aufmerksamkeit!