Big data-Projekte:
Best practices aus der Praxis
Dr. Kathrin Spreyer
Big Data Engineer
JAX / Big data days
Mainz, 14.05.20...
Agenda
1. Projekte
2. Big
3. Datenimport
4. Datenschutz
5. Testen
6. Tooling
7. Agilität
2
Agenda
1. Projekte
2. Big
3. Datenimport
4. Datenschutz
5. Testen
6. Tooling
7. Agilität
2
Zwei Projekte
• 1&1
• 2009-2013
• Web-Analytics
• ProsiebenSat.1 Digital (PSD)
• 2013-heute
• Integration von Reichweiten-...
Architektur 1&1
4
Architektur PSD
5
Lösungsansatz
Hybrides System aus relationaler Datenbank und Hadoop Cluster
Was heißt “Big?”
6
3V
Was heißt “Big?”
6
3V
Parallelisierung
Skalierbarkeit
Datenimport
7
Koordination m. Quellsystemen
Zwischenspeicherung
Skalierbarer
Transport
(N)RT
Datenschutz
8
Computersicherheit
Multi-Tenancy
Datenschutz
8
Computersicherheit
Multi-Tenancy
PII
Anonymisierung
Nutzen vs. Anonymität
Testen
9
Korrektheit
Robustheit
Performanz
Testen
9
Korrektheit
Robustheit
Performanz
Regressions-/Akzeptanztests
Testen
9
Datenmenge
Korrektheit
Robustheit
Performanz
Testdauer
Regressions-/Akzeptanztests
Wartbarkeit (Fachseite)
Tooling
10
Tooling
10
Reifegrad
Downstream-Anforderungen
Datenmodellierung
RT?
Nutzerakzeptanz
Agilität
11
REfactoring mit neuen Technologien
Iterativ
inkrementell
Agilität
11
Daten-Exploration
REfactoring mit neuen Technologien
Iterativ
inkrementell
Anforderungen erwachsen aus Daten
Und jetzt?
12
Luecken
Junge Technologien
inovex Academy
1. U.a. Hadoop-Entwickler-Training
2. 1-3 Tage
3. Inhouse oder offen
4. Offene Hadoop-Trainings 2014:
18.-2...
14
Fragen?
Meinungen?
Nächste SlideShare
Wird geladen in …5
×

Big Data Projekte - Best Practices aus der Praxis

797 Aufrufe

Veröffentlicht am

Big Data ist in aller Munde, aber man findet vergleichsweise wenig Praxisberichte oder Best Practices zu dem Thema. Wir wollen in diesem Vortrag unsere Erfahrung aus Projekten mit Kunden wie 1&1 und ProSiebenSat.1 Digital teilen und Dos und Don'ts im Umgang mit großen Datenmengen und entsprechenden Technologien zur Diskussion stellen.

Veröffentlicht in: Technologie
0 Kommentare
1 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

Keine Downloads
Aufrufe
Aufrufe insgesamt
797
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
3
Aktionen
Geteilt
0
Downloads
4
Kommentare
0
Gefällt mir
1
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Big Data Projekte - Best Practices aus der Praxis

  1. 1. Big data-Projekte: Best practices aus der Praxis Dr. Kathrin Spreyer Big Data Engineer JAX / Big data days Mainz, 14.05.2014
  2. 2. Agenda 1. Projekte 2. Big 3. Datenimport 4. Datenschutz 5. Testen 6. Tooling 7. Agilität 2
  3. 3. Agenda 1. Projekte 2. Big 3. Datenimport 4. Datenschutz 5. Testen 6. Tooling 7. Agilität 2
  4. 4. Zwei Projekte • 1&1 • 2009-2013 • Web-Analytics • ProsiebenSat.1 Digital (PSD) • 2013-heute • Integration von Reichweiten-, Vermarktungserlös- und Transaktionsdaten 3
  5. 5. Architektur 1&1 4
  6. 6. Architektur PSD 5 Lösungsansatz Hybrides System aus relationaler Datenbank und Hadoop Cluster
  7. 7. Was heißt “Big?” 6 3V
  8. 8. Was heißt “Big?” 6 3V Parallelisierung Skalierbarkeit
  9. 9. Datenimport 7 Koordination m. Quellsystemen Zwischenspeicherung Skalierbarer Transport (N)RT
  10. 10. Datenschutz 8 Computersicherheit Multi-Tenancy
  11. 11. Datenschutz 8 Computersicherheit Multi-Tenancy PII Anonymisierung Nutzen vs. Anonymität
  12. 12. Testen 9 Korrektheit Robustheit Performanz
  13. 13. Testen 9 Korrektheit Robustheit Performanz Regressions-/Akzeptanztests
  14. 14. Testen 9 Datenmenge Korrektheit Robustheit Performanz Testdauer Regressions-/Akzeptanztests Wartbarkeit (Fachseite)
  15. 15. Tooling 10
  16. 16. Tooling 10 Reifegrad Downstream-Anforderungen Datenmodellierung RT? Nutzerakzeptanz
  17. 17. Agilität 11 REfactoring mit neuen Technologien Iterativ inkrementell
  18. 18. Agilität 11 Daten-Exploration REfactoring mit neuen Technologien Iterativ inkrementell Anforderungen erwachsen aus Daten
  19. 19. Und jetzt? 12 Luecken Junge Technologien
  20. 20. inovex Academy 1. U.a. Hadoop-Entwickler-Training 2. 1-3 Tage 3. Inhouse oder offen 4. Offene Hadoop-Trainings 2014: 18.-20. März (Köln) 24.-26. Juni (München) 18.-20. November (Karlsruhe) www.inovex.de/trainings/offene-trainings/ 13
  21. 21. 14 Fragen? Meinungen?

×