Quarterly Technology Briefing - Big Data - Germany

5.974 Aufrufe

Veröffentlicht am

ThoughtWorks Quarterly Technology Briefing on Big Data, featuring Ashok Subramanian and Dave Elliman. Hamburg, June 2014

Veröffentlicht in: Technologie
1 Kommentar
3 Gefällt mir
Statistik
Notizen
Keine Downloads
Aufrufe
Aufrufe insgesamt
5.974
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
4.152
Aktionen
Geteilt
0
Downloads
25
Kommentare
1
Gefällt mir
3
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Quarterly Technology Briefing - Big Data - Germany

  1. 1. H a m b u r g , J u n e 2 0 1 4 QUARTERLY TECHNOLOGY BRIEFING Moin!
  2. 2. 2
  3. 3. 3
  4. 4. 4
  5. 5. AGENDA ▫︎Was ist ‘Big Data’ ▫︎Preis Informationen im Einzelhandel ! ▫︎Agile Analytics ▫︎Data Engineer und Data Scientist ! ▫︎AutoTrader und BigQuery ! ▫︎Social Backlash und Datensparsamkeit 5
  6. 6. WAS IST ‘BIG DATA’ 6
  7. 7. VOLUME
  8. 8. VELOCITY
  9. 9. 9 VARIABILITY
  10. 10. 10 VERACITY
  11. 11. 11 VALUE
  12. 12. 12 GRUPPO PAM
  13. 13. THE CHALLENGE: PREISINFORMATIONSSYSTEM ! ! ▫︎ Datewarehouse auf TerraData Basis ! ▫︎ Business Requirements änderten sich - IT kam nicht mit ! ▫︎ ~50 analytische Vektoren ! ▫︎ 12 Stunden -> Realtime 13
  14. 14. MICROSERVICES ON STEROIDS 14 …… … 2010 2011 2014 ~150 Instanzen 1 Server 200.000.000 Zeilen / Instanz
  15. 15. AGILE ANALYTICS 15
  16. 16. AGILE ANALYTICS 16 analytics technologies agile delivery lean learning ` fast results
  17. 17. 17 Value Complexity descriptive diagnostic predictive prescriptive Was ist passiert? Warum ist es passiert? Was wird geschehen? Wie können wir es eintreten lassen?
  18. 18. AGILE ANALYTICS IN ACTION 18
  19. 19. 19 Data Lab Operationalisierung 2 Wochen 2 Monate ! ! Brainstorming Datenanalyse ~1.000.000 Edges Experimente / Spikes (Gephi) Tests mit Mitarbeitern
  20. 20. 20 Netzwerk 1. Grades
  21. 21. 21 Netzwerk 2. Grades
  22. 22. NEO4J ! ▫︎“Natural fit” für Graphen basierte Queries ! ▫︎Basis Graph Algorithmen “on-board” ▫︎Shortest Path, Centrality, Pattern Matching ! ▫︎Java API mit guter Performance ▫︎Netzwerk einer Person (400 Nodes) in < 1 Sekunde 22
  23. 23. 23 Data Lab Operationalisierung 2 Wochen 2 Monate ! ! Neo4j als Datastore Batch Import (14 Jahre) aus MSSQL - ~95.000.000 Edges Dropwizard (REST, HealtChecks) - read only A/B Testing via Email
  24. 24. ROLLEN: WER MACHT WAS? ! ▫︎Ergänzung zur klassischen IT ! ▫︎Kernkompetenzen 24 data engineer data scientist
  25. 25. DATA ENGINEER ! ! ▫︎Implementiert das analytische Modell in Produktion ! ▫︎Schnittstelle zur Softwareentwicklung ! ▫︎Expertise in SQL, NoSQL, Datenmodellierung, Infrastruktur (Hadoop...) ! ▫︎Unterstützt den “Data Scientist” bei Mining und Aufbereitung 25
  26. 26. DATA SCIENCE 26 data engineering scientific method math domain expertise data science statistics hacker mindset visualization advanced computing
  27. 27. “SEXIEST JOB OF THE 21ST CENTURY” Hat Annahmen und überprüft diese ! “Hacker-Mentalität” ! Hilft durch fundierte Informationen Entscheidungen zu treffen ! Validiert das Alleinstellungsmerkmal des Produktes ! Weiss wie man die richtigen Fragen stellt 27
  28. 28. DATA SCIENTIST Machine Learning Support Vector Machines Decision Trees Clustering, ... Domain-Wissen Geschäftliches Detailwissen Statistische Modellierung Bayes-Klassifikation K-Nearest-Neighbour, ... Programmierung R, Matlab, Python, ... 28
  29. 29. BEISPIEL ANALYSE Multiple-Choice ! ▫︎ 10 Fragen ▫︎ 4 mögliche Antworten ! ergibt 40 dimensionalen Vektor ! ! ! Welches Wissen im Datensatz? 29
  30. 30. K-MODES CLUSTERING ! ▫︎ Für kategoriale Daten ▫︎ Ähnlich K-Means, modifiziert @ Bell Labs ! ! ! ! ! Quelle: Weston Pace (Wikimedia Commons, cc-by-sa) 30
  31. 31. K-MEANS VS K-MODES ! ! ▫︎ Vereinfachung der Vektorbildung/Euklidische Distanz ! ▫︎ Stattdessen: Abzählen der erfolgreichsten Antwort (“mode”) ! ▫︎ Einfache Distanz: Anzahl der Verschiedenen Antworten 31
  32. 32. VEREINFACHUNG ALS VORTEIL ! ! ! K-Modes erzwingt eine klarere Cluster-Bildung ! ! Schlechte Performance bei schwacher Korrelation 32
  33. 33. 33
  34. 34. GOOGLE BIG QUERY ! ! ▫︎Queries über Milliarden von Zeilen in Sekunden ! ▫︎Gut zum analysieren, aber nicht zum modifizieren ! ▫︎Keine eigene Infrastruktur benötigt ! ▫︎Einfaches Setup durch gutes Tooling: gsutil / bq 34
  35. 35. AUTOTRADER UK / GOOGLE BIG QUERY ! ▫︎3 Entwickler / 5 Tage / 5 Jahre Datenbestand (~1.500.000.000 Zeilen) ! ▫︎Queries via BigQuery WebConsole, später API ! ▫︎Google App Engine Frontend mit Google Charts 35
  36. 36. SOCIAL IMPACT 36
  37. 37. ETHISCHE GESICHTSPUNKTE ! ! ! ▫︎Daten als neue Währung ! ▫︎Technologischer Fortschritt im Konflikt mit gesellschaftlicher Norm 37
  38. 38. ETHISCHE GESICHTSPUNKTE “How Target Figured Out A Teen Girl Was Pregnant Before Her Father Did” 38
  39. 39. INFORMATIONELLE SELBSTBESTIMMUNG ! ! Rechtliche Anforderung, § 3a BSDG ! Aktuelle Themen NSA-Affäre Datendiebstahl ! Betrifft alle die private Daten speichern und verarbeiten 39
  40. 40. DOE VERSUS NETFLIX ▫︎$1.000.000 Wettbewerb um das Netflix Recommendation-System zu verbessern ! ▫︎Veröffentlichung eines pseudonymisierter Datensets ! ▫︎Kreuzkorrelation zu öffentlichen Bewertungen auf IMDB.com ! ▫︎Ermöglichte Zuordnung zu bekannten Benutzerprofilen 40
  41. 41. DATENSPARSAMKEIT ! Datenerhebung nur soweit für die Erfüllung der Aufgabe nötig 41
  42. 42. KONKRETE LÖSUNGEN ! ! ▫︎Unique visitors? ▫︎Gehashte IP-Adressen ! ▫︎Geo-IP Zuordnung ▫︎Auslassen des 4. Oktetts ! ! ! Quelle: Martin Fowler “Datensparsamkeit” 42
  43. 43. … 43
  44. 44. thoughtworks.com/join DANKE!
  45. 45. CREDITS Chris: http://www.wired.com/images_blogs/wiredscience/2014/01/ff_lovehacker_f.jpg Clustering: http://www.wired.com/images_blogs/wiredscience/2014/01/ff_lovehacker2_large.jpg Chris + Wife: http://i.huffpost.com/gen/1579914/thumbs/o-OKCUPID-LOVE-facebook.jpg Kassenbon: http://www.kundenkunde.de/wp-content/uploads/2011/06/kassenbon_kaufland_gross.jpg Data Science: http://upload.wikimedia.org/wikipedia/commons/4/44/DataScienceDisciplines.png K-Means http://commons.wikimedia.org/wiki/File:K_Means_Example_Step_1.svg und folgende 45

×