Klassische BI-Tools integrieren mit Big Data-Technologien, wie geht das am geschicktesten?
Wir stellen ein Projekt bei ProSiebenSat.1 vor, in dem wir klassische open-source ETL-Tools zur DWH-Bewirtschaftung mit Hadoop-Werkzeugen mischen. Das relationale DWH wird mit Hadoop-aggregierten Daten aus heterogenen Quellen befüllt.
Wie das alles funktioniert und welche Rolle Hadoop, das DWH, Pig und Hive dabei spielen, möchten wir in diesem Vortrag erklären.
7. Datenquellen
1. DWH zur Integration von Reichweiten-,
Vermarktungserlös- und Transaktionsdaten
5
Online TV Channel ProSiebenSat.1 Network Externe Mandanten
.de
ProSiebenSat.1 Digital
Wesentlicher Treiber der Digitalstrategie
8. Datenquellen
1. DWH zur Integration von Reichweiten-,
Vermarktungserlös- und Transaktionsdaten
6
Online TV Channel ProSiebenSat.1 Network Externe Mandanten
.de
ProSiebenSat.1 Digital
Wesentlicher Treiber der Digitalstrategie
19. HDFS-Architektur
15
data nodes 03, 05, 08
name node
client node
data node 01
data node 02
data node 03
data node 04
data node 05
data node 06
data node 07
data node 08
data node 09
data node 10
data node 11
data node 12
rack 1 rack 2 rack 3
blk 2 blk 3 blk 4blk 1
Where do I store block 1?
blk 1
(03, 05, 08)
blk1
(03,05,08)
blk1(03,05,08)
Done!
Done!
Done!
www.inovex.de/trainings/offene-trainings/hadoop-training/
29. Datenimport mit Flume
1. Import via FTP-Server:
Daten erst nach 24 Stunden im DWH
2. Apache Flume: kontinuierlicher Datenstrom
3. Automatische “Einsortierung” in HDFS-Verzeichnisse
z.B. nach Zeitstempel
24
30. Datenvolumen
1. via Flume: jährlich 20 TB (netto)
2. via FTP: jährlich 21.5 TB (netto)
3. Archivierung: jährlich 500 GB (netto)
4. insgesamt: 40 TB (120 TB) pro Jahr
25
31. Clustergröße
1. dev: 4 DN + NN + SN + DB + Admin
2. prod: 6 DN + NN + SN + DB + 2 Admin
3. HDFS-Kapazität: 185 TB (brutto)
4. skalierbar
26
32. Clustergröße
1. dev: 4 DN + NN + SN + DB + Admin
2. prod: 6 DN + NN + SN + DB + 2 Admin
3. HDFS-Kapazität: 185 TB (brutto)
4. skalierbar
26
34. Apache Hive
1. Bekanntes Interface: SQL
2. Teilweise Nutzung zur Aggregation im Backend
3. Hauptsächlich Eruierung neuer Metriken
4. Untersuchung von Daten-”Anomalien”
28
35. Beispiel-Query
29
SELECT mandant, day, count(*)
FROM webtrekk_cust_para_click_2
WHERE mandant = 'sat1'
AND day BETWEEN '2013-01-01' AND '2013-01-31'
GROUP BY sid, request_id, times, day, mandant
HAVING count(*) >1
45. inovex Academy
1. U.a. Hadoop-Entwickler-Training
2. 1-3 Tage
3. Inhouse oder offen
4. Offenes Trainings 2014:
18.-20. März (Köln)
24.-26. Juni (München)
18.-20. November (Karlsruhe)
www.inovex.de/trainings/offene-trainings/hadoop-training/
33