Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

BigData-Architekturen

9.232 Aufrufe

Veröffentlicht am

Mehr dazu in meinem Blogbeitrag in dem ich mich auf die Suche nach der idealen Software-Architketur für Big Data begebe: http://bit.ly/Z-Blog_BigDataArch.

Die Vernetzung von Geräten und die Cloud führen zu neuen Anforderungen an die Architekturen und an die Architekten. Wie lassen sich die Trade-Offs am besten auflösen? Und wie geht man mit Betriebskosten und Datenschutzrecht bei Cloud-Architekturen richtig um? Ausgehend von den spezifischen Herausforderungen zeigen wir Ihnen den Weg zur passenden Architektur.
Vortrag von Georg Molter beim Seminare "Willkommen im Datenrausch: Produkte vernetzen - mit BigData und der Cloud neue Schätze heben"

Veröffentlicht in: Technologie
  • Als Erste(r) kommentieren

BigData-Architekturen

  1. 1. © Zühlke 2013 Dr. Georg Molter Big-Data-Architekturen: Herausforderungen und Lösungen 9. Juli 2013 Folie 1
  2. 2. © Zühlke 2013 Übersicht • Big-Data-Architekturen: Anforderungen und Trade-Offs • Rahmenarchitektur und Lösungsbausteine • Von den Anforderungen zur Architektur 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Folie 2
  3. 3. © Zühlke 2013 Big Data-Architekturen: Herausforderungen und Lösungen Dr. Georg Molter Anforderungen und Trade-Offs 9. Juli 2013 Folie 3
  4. 4. © Zühlke 2013 Anforderungen und Trade-Offs: Volume, Velocity und Variety Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Volume/Datenmenge Velocity / Geschwindigkeit der Analyse Tiefe(*) Analyse Vorhersage-Modelle (*) Tief: Bis zu 10.000 mal größer Schnell: Bis zu 10.000 mal schneller 9. Juli 2013 Variety: „Big Data geht über strukturierte Daten hinaus, schließt unstrukturierte Daten aller Arten mit ein: Text, Audio, Video, Click Streams, Logdateien und mehr.“ IBM, Bringing Big Data to the Enterprise Folie 4 Schnelle(*) Entscheidungen Reaktive Analyse Echtzeit-Bearbeitung von Analyse-Aufgaben
  5. 5. © Zühlke 2013 Anforderungen und Trade-Offs: Analyse-Stufen 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Explorative Analyse  Experimentieren mit den Daten  Untersuchung der Daten aus verschiedenen Blickwinkeln  Schneiden und Projektion der Daten entlang verschiedener, teilweise nichttrivialer Dimensionen Modellbildung und –Validierung  Ableitung und Validierung in sich geschlossener Erklärungsmodelle  Optimierung der Modelle zur Steigerung von Aussagekraft und Trennschärfe Modellanwendung / Automatisierte Analyse  Anwendung der Modelle im Produktivbetrieb zur Routine-Analyse realer Datensätze Folie 5  Große Datenmengen erforderlich  Geschwindigkeit ist nicht absolut kritisch  Potenziell große Datenmengen, aber Vorfilterung möglich  Geschwindigkeit ist extrem wichtig
  6. 6. © Zühlke 2013 Anforderungen und Trade-Offs: Datenspeicherung 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Folie 6 Speicherung aller in Frage kommender Daten Speicherung der jeweils erforderlichen Daten Keine Datenspeicherung Anwendungen  Explorative Analyse und Modellvalidierung  Archivierung Auswirkungen  Großes Datenvolumen, hohe Kosten für Speicherung, hoher Ballast für die Verarbeitung, keine optimierte Strukturierung Anwendungen  Gezielte, optimierte Analyse für einen spezifischen Zweck gemäß zuvor identifizierter Modelle  Selektion und Filterung zur Begrenzung der Datenmenge Auswirkungen  Geringere Unterstützung für explorative Analyse Anwendungen  Streaming Analytics: optimierte Analyse für spezifische Zwecke, zeitnah zur Datenentstehung  Stream Mining für explorative Analyse Auswirkungen  Keine Speicherungskosten  Keine Möglichkeit für nachträgliche weitere Analyse
  7. 7. © Zühlke 2013 Anforderungen und Trade-Offs: Datenrate und -Verteilung 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Folie 7 Datenrate und Burstiness • Mit welcher Rate werden die Daten erzeugt? • Mit welcher zeitlichen Verteilung werden die Daten erzeugt? Performance-Optimierung • Peak Performance • Guaranteed Performance • Opportunistic Performance Analyse-Geschwindigkeit („Velocity“) • Innerhalb welcher Zeitspanne muss ein Analyseergebnis vorliegen? – Bedingt durch physische Prozesse – Bedingt durch die Reaktion von Menschen
  8. 8. © Zühlke 2013 Anforderungen und Trade-Offs: Überblick 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Folie 8 Volume Velocity Sensibilität der Daten Datenspeicherung Datenrate Performance-Optimierung Analyseszenario Variety / Strukturiertheit der Daten E M A Flexibilität Skalierbarkeit
  9. 9. © Zühlke 2013 Big Data-Architekturen: Herausforderungen und Lösungen Dr. Georg Molter Lösungsbausteine 9. Juli 2013 Folie 9
  10. 10. © Zühlke 2013 Die Lambda-Architektur als Rahmen 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Herausforderung • (Beinahe-)Echtzeit-Analyse großer Datenmengen Batch Layer Serving Layer Speed LayerNew Data All Data Batch Views Realtime Views Queries Lösungsansatz: Lambda-Architektur1 • Inkrementelle Berechnung der Analysefunktion mit „eventual accuracy“: query = λ(all data) = λbatch(old data) ⊕ λspeed(recent data) Folie 10 1Nathan Marz and James Warren: Big Data - Principles and best practices of scalable realtime data systems, Manning 2012
  11. 11. © Zühlke 2013 Die Lambda-Architektur als Rahmen 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Herausforderung • (Beinahe-)Echtzeit-Analyse großer Datenmengen Batch Layer Serving Layer Speed LayerNew Data All Data Batch Views Realtime Views Queries Lösungsansatz: Lambda-Architektur • Inkrementelle Berechnung der Analysefunktion mit „eventual accuracy“: query = λ(all data) = λbatch(old data) ⊕ λspeed(recent data) Folie 11
  12. 12. © Zühlke 2013 Die Lambda-Architektur als Rahmen 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Herausforderung • (Beinahe-)Echtzeit-Analyse großer Datenmengen Batch Layer Serving Layer Speed LayerNew Data All Data Batch Views Realtime Views Queries Lösungsansatz: Lambda-Architektur • Inkrementelle Berechnung der Analysefunktion mit „eventual accuracy“: query = λ(all data) = λbatch(old data) ⊕ λspeed(recent data)  Effiziente, tiefe und exakte Analyse großer Datenmengen  Zeitversatz ist akzeptabel  Bereitstellung der Batch-Ergebnisse ("Batch Views") für Queries  Zeitnahe Analyse neuer Daten mit speziell dafür geeigneten Mechanismen  Reduzierte Anforderungen bzgl. Genauigkeit oder Tiefe Folie 12
  13. 13. © Zühlke 2013 Lösungsbausteine: Data Warehouse und OLAP 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Folie 13 Geschäftsanwendungen Operative Datenbanken Extraktion Extraktion TransformationTransformation Integration Geeignet für • Automatisierte und explorative Analyse • Mittelgroße Datenmengen • Mittlere Velocity Integration von Daten aus unterschiedlichen Quellen Bereitstellung für verschiedene dispositive Zwecke Originaldaten Data Warehouse Reporting & Analytics Data Mining Applications
  14. 14. © Zühlke 2013 Lösungsbausteine: Data Warehouse und OLAP 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Geschäftsanwendungen Operative Datenbanken Extraktion Extraktion TransformationTransformation Integration Geeignet für • Automatisierte und explorative Analyse • Mittelgroße Datenmengen • Mittlere Velocity Integration von Daten aus unterschiedlichen Quellen Bereitstellung für verschiedene dispositive Zwecke Originaldaten Data Warehouse Reporting & Analytics Data Mining Applications Folie 14 Technologie-/Produktalternativen • On-premise DWH: SAP BW, Oracle, MS SQL Server • Cloud DWH: Redshift, Teradata • Data Mining: R, WEKA (Waikato Environment for Knowledge Analysis), RapidMiner (früher YALE)
  15. 15. © Zühlke 2013 Data Warehouse Alternative Datenkategorien und -Quellen 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Geschäftsanwendungen Operative Datenbanken Extraktion Extraktion TransformationTransformation Integration Reporting & Analytics Data Mining Folie 15 ? •Keine strukturierte Datenspeicherung erforderlich: Unmittelbare Verarbeitung, ggfs. Aufbewahrung für Archivierungszwecke •Hohe Skalierbarkeit erforderlich Applications Social Media Connected Products
  16. 16. © Zühlke 2013 Alternative Datenkategorien und -Quellen: Map / Reduce-Auswertung 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Folie 16
  17. 17. © Zühlke 2013 Alternative Datenkategorien und -Quellen: Map / Reduce-Auswertung 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Folie 17 Problemfeld • Batch-Verarbeitung von großen Datenmengen Lösungsprinzipien • Gliederung der Aufgabenstellung in einzelne Verarbeitungsschritte • Massive Parallelisierung ( verteilte Ausführung) • Lokalität (Speicherung und Query-Ausführung räumlich eng verknüpft) Beispiel-Problemstellung • Auswertung von automatisch übertragenen Zählerständen • Einzelner Ablesewert ist ein Schnappschuss, der nach Übermittlung – nur noch Dokumentationscharakter hat – nicht im Online-Zugriff stehen muss • Zielfunktion der Auswertung: Kumulierter Verbrauch pro Verbrauchsstelle und pro Kunde
  18. 18. © Zühlke 2013 Alternative Datenkategorien und -Quellen: Map / Reduce-Auswertung 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Folie 18 Map: Verdichtung pro Zähler Zwischenergebnisse: Verbrauchswerte pro Zähler Reduce: Kumu- lierter Verbrauch pro Kunde Endergebnis: Kumulierter Verbrauch
  19. 19. © Zühlke 2013 Alternative Datenkategorien und -Quellen: Map / Reduce-Auswertung 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Folie 19 Map: Verdichtung pro Zähler Zwischenergebnisse: Verbrauchswerte pro Zähler Reduce: Kumu- lierter Verbrauch pro Kunde Endergebnis: Kumulierter Verbrauch • Zur Analyse derselben Business-Fragestellung gibt es viele verschiedene Abbildungsmöglichkeiten auf Map / Reduce. • Geeignete Wahl der Map- und Reduce-Funktionen ist kritisch, – um die Vorteile der Lokalität zu nutzen – um Parallelisierbarkeit und Skalierbarkeit sicherzustellen • … sie hat weitreichende Auswirkungen auf Performance und Datentransfer … • … und damit auf Kosten!
  20. 20. © Zühlke 2013 Alternative Datenkategorien und –Quellen: Map / Reduce-Auswertung 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Geschäftsanwendungen Operative Datenbanken Extraktion Extraktion TransformationTransformation Integration Connected Products Folie 20 Data Warehouse Reporting & Analytics Data Mining Applications Weitere Anwendungen Geeignet für • Explorative und auto- matisierte Analyse • Große Datenmengen • Batchverarbeitung • Vorverarbeitung von Daten
  21. 21. © Zühlke 2013 Alternative Datenkategorien und –Quellen: Map / Reduce-Auswertung 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Geschäftsanwendungen Operative Datenbanken Extraktion Extraktion TransformationTransformation Integration Geeignet für • Explorative und auto- matisierte Analyse • Große Datenmengen • Batchverarbeitung • Vorverarbeitung von Daten Data Warehouse Reporting & Analytics Data Mining Applications Weitere Anwendungen Folie 21 Connected Products Technologie-/Produktalternativen • Hadoop in verschiedenen Open-Source- Distributionen und als Bestandteil verschiedener kommerzieller Produkte: Hortonworks, Cloudera; MS Daytona / HDInsight; SAP HANA • Hadoop-Cluster in der Cloud: Elastic MapReduce • Explorative Analyse: Apache Pig, Apache Hive (Hadoop-basiertes DWH)
  22. 22. © Zühlke 2013 Alternative Datenkategorien und –Quellen: Stream Processing, CEP, Online Analytics 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Folie 22 Problemfeld • Mustererkennung und regelbasierte Verarbeitung für einen Strom aus vielen Einzel-Ereignissen • Filterung, Korrelation und Aggregation von Ereignissen Lösung mit einer Complex Event Processing (CEP)-Engine • Beschreibung von Mustern und Regeln häufig mit SQL-ähnliche Sprachen: z.B. CQL (Continuous Query Language), EPL (Event Processing Language) „Wenn Ereignis A eintritt, unmittelbar gefolgt von Ereignis B, und innerhalb eines Zeitfensters von einer Stunde nicht Ereignis C, dann erzeuge ein neues Ereignis vom Typ X“
  23. 23. © Zühlke 2013 Alternative Datenkategorien und –Quellen: CEP, Stream Analytics, Online Analytics 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Geschäftsanwendungen Operative Datenbanken Extraktion Extraktion TransformationTransformation Integration Data Warehouse Reporting & Analytics Data Mining Applications Weitere Anwendungen Folie 23 Social Media Connected Products CEP Engine  Filterung  Aggregation  Korrelation Adaption
  24. 24. © Zühlke 2013 Alternative Datenkategorien und –Quellen: CEP, Stream Analytics, Online Analytics 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Geschäftsanwendungen Operative Datenbanken Extraktion Extraktion TransformationTransformation Integration Data Warehouse Reporting & Analytics Data Mining Applications Weitere Anwendungen Social Media Connected Products CEP Engine  Filterung  Aggregation  Korrelation Folie 24 Geeignet für •Automatisierte Analyse •Große Datenmengen •Hohe Velocity Adaption
  25. 25. © Zühlke 2013 Alternative Datenkategorien und –Quellen: CEP, Stream Analytics, Online Analytics 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Geschäftsanwendungen Operative Datenbanken Extraktion Extraktion TransformationTransformation Integration Data Warehouse Reporting & Analytics Data Mining Applications Weitere Anwendungen Social Media Connected Products CEP Engine  Filterung  Aggregation  Korrelation Geeignet für •Automatisierte Analyse •Große Datenmengen •Hohe Velocity Technologie-/Produktalternativen • Trident / Twitter Storm, Esper • Microsoft StreamInsight, Oracle CEP Adaption Folie 25
  26. 26. © Zühlke 2013 Lösungsbausteine: In Memory-Datenbanken Lösungsansatz • Datenablage und -Verarbeitung im Hauptspeicher • Geringere Zugriffs-Latenzen, höhere Bandbreite, bessere Vorhersagbarkeit • Unterstützung für parallele Abfragebearbeitung • Speicherkapazität im Terabyte-Bereich (z.B. HANA-Deployment bei Red Bull mit 8TB RAM1) • Persistenzsicherung mit Hilfe von Logdateien, Schnappschüssen und Replikation Technologie- / Produktalternativen • SAP HANA, Oracle TimesTen, SAG Terracotta • MySQL, Apache Derby, MonetDB 1 siehe http://reshaping-datacenter.de.ts.fujitsu.com/fileadmin/user_upload/documents/Downloads_DE/ps-hana-case-study-Red-Bull-em-en.pdf 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Folie 26
  27. 27. © Zühlke 2013 Lösungsbausteine: DWH / Analytics Appliances DWH / Analytics Appliance • Vorgefertigte Kombination aus Hardware (Server, Storage) und Software (Betriebssystem, Middleware, Datenbanksystem, Analytics-Software) • Spezial- oder Standard-Hard- und Software Spezifische Eigenschaften • Hohe Performance durch parallele Abfragebearbeitung • Hohe Skalierbarkeit • Schnelles Setup Beispiele • IBM PureData System for Hadoop, IBM Netezza / IBM PureData System for Analytics • Oracle Exadata / Exalytics • Teradata Data Warehouse Appliance • Microsoft Parallel Data Warehouse 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter • Für ein DWH mit 128TB Kapazität Kosten von € 500.000,- aufwärts1 1http://www.valueprism.com/resources/resources/ Resources/PDW%20Compete%20Pricing%20FINAL.pdf Folie 27
  28. 28. © Zühlke 2013 Oracle Big Data Appliance: „Engineered system optimized for acquiring, organizing and loading unstructured data into Oracle Database 11g“ • Oracle NoSQL • Hadoop, Oracle Hadoop Adapter, Oracle Loader for Hadoop • R als Statistik- und Grafiksprache • Oracle Enterprise Linux and Oracle HotSpot VM • Einsatzgebiet: „Analyse der von Blogs, Social-Media- Feeds, Smart-Metern, Sensoren und anderen Geräten erzeugten großen Datenmengen, die sich mit klassischen Data Warehouses und Business- Intelligence-Software so nicht erfassen lassen“ Lösungsbausteine: DWH / Analytics Appliances 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Folie 28 http://techsatwork.com/blog/?p=743
  29. 29. © Zühlke 2013 Oracle Exadata: „Engineered“ MPP-DBMS für OLTP-, OLAP- und gemischte Anwendungen • Bis zu 8 Datenbankserver, bis zu 128 CPU-Cores und 2TB Memory • 14 Oracle Exadata Storage Servers, bis zu 168 storage-nahe CPU-Cores für SQL- Verarbeitung • Bis zu 5.3TB Exadata Smart Flash Cache • Unkomprimierte Kapazität pro Rack bis zu 432TB • Hybrid Columnar Compression mit Kompressionsraten von 10 bis 15 • Maximaler Stromverbrauch: 17,0kW Oracle Exalytics / Exalogic: In-memory BI-Appliance • Ergänzt Oracle BI Enterprise Edition und die Exadata-Systeme • Bis zu 1TB und 40 CPU-Cores • Oracle TimesTen In-Memory DB Lösungsbausteine: DWH / Analytics Appliances 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Folie 29
  30. 30. © Zühlke 2013 Einordnung der Lösungsbausteine Klassisches DWH / OLAP OLAP-Unter- stützung Z.B. Cube- Berechnung Klassische Vor- berechnung Map/ Reduce Hochparallele Analyse großer Datenmengen Kernanwendung Kernanwendung CEP / Stream Processing Stream Analytics Kernanwendung Kernanwendung In Memory- Verarbeitung Schnelle Analyse im Haupt- speicher Reaktionsschnelle automatisierte Analyse Hoher Batch- Durchsatz im Hauptspeicher Schnelle Analyse im Haupt- speicher Analytics Appliances Hochoptimiertes Gesamtsystem Hochoptimiertes Gesamtsystem Hochoptimiertes Gesamtsystem Hochoptimiertes Gesamtsystem Explorative Analyse Automatisierte Analyse Batch- Verarbeitung Speed- Verarbeitung Folie 31                  9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter
  31. 31. © Zühlke 2013 Einordnung der Lösungsbausteine Klassisches DWH / OLAP Integration, Zusammenarbeit mit Business-Anwendungen Mittlere Velocity; Zeitversatz ist übliche Praxis Batch Layer Map/ Reduce Großes Datenvolumen, hohe Skalierbarkeit Mittlere Velocity Batch Layer CEP / Stream Processing Großes Datenvolumen, keine Speicherung Hohe Velocity Speed Layer In Memory- Verarbeitung „Kleines“ Datenvolumen Hohe Velocity Batch Layer und Speed Layer Analytics Appliances Hohe Skalierbarkeit, großes Datenvolumen Hohe Performance durch parallele Abfragebearbeitung Batch Layer und Speed Layer Optimierung Velocity Lambda-Architektur 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Folie 32
  32. 32. © Zühlke 2013 Big Data-Architekturen: Herausforderungen und Lösungen Dr. Georg Molter Lösungsdesign 9. Juli 2013 Folie 33
  33. 33. © Zühlke 2013 Von den Anforderungen zur Architektur 9. Juli 2013 Folie 34 Identifikation und Herausarbeiten der wesentlichen Business- Fragestellungen Volume Velocity Sensibilität der Daten Datenspeicherung Datenrate Performance-Optimierung Analyseszenario Variety / Strukturiertheit der Daten E M A Flexibilität Skalierbarkeit Klassisches DWH / OLAP Integration, Zusammenarbeit mit Business- Anwendungen Explorative und automatisierte Analyse Mittlere Velocity; Zeitversatz ist übliche Praxis Batch Layer Map/ Reduce Großes Daten- volumen, hohe Skalierbarkeit Explorative und automatisierte Analyse Mittlere Velocity Batch Layer CEP / Stream Processing Großes Datenvolumen, keine Speicherung Automatisierte Analyse Hohe Velocity Speed Layer In Memory- Verarbeitung „Kleines“ Datenvolumen Explorative und automatisierte Analyse Hohe Velocity Batch Layer und Speed Layer Analytics Appliances Hohe Skalier- barkeit, großes Datenvolumen Explorative und automatisierte Analyse Hohe Performance durch parallele Abfragebearbeitung Batch Layer und Speed Layer Optimierung Analyse- szenario Velocity Lambda- Architektur Mapping auf geeignete technische Lösungen Identifikation der Anforderungen und Trade-Offs der spezifischen Anwendung Unternehmensarchitektur als Randbedingung  Zu unterstützende Businessprozesse  Informationsarchitektur (Informationshoheit, Charakteristika der Daten wie Langlebigkeit, Stammdaten vs. aggregierte Daten, dispositive vs. operative Daten, Schutzcharakteristik) Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter
  34. 34. © Zühlke 2013 Von den Anforderungen zur Architektur 9. Juli 2013 Identifikation und Herausarbeiten der wesentlichen Business- Fragestellungen Volume Velocity Sensibilität der Daten Datenspeicherung Datenrate Performance-Optimierung Analyseszenario Variety / Strukturiertheit der Daten E M A Flexibilität Skalierbarkeit Klassisches DWH / OLAP Integration, Zusammenarbeit mit Business- Anwendungen Explorative und automatisierte Analyse Mittlere Velocity; Zeitversatz ist übliche Praxis Batch Layer Map/ Reduce Großes Daten- volumen, hohe Skalierbarkeit Explorative und automatisierte Analyse Mittlere Velocity Batch Layer CEP / Stream Processing Großes Datenvolumen, keine Speicherung Automatisierte Analyse Hohe Velocity Speed Layer In Memory- Verarbeitung „Kleines“ Datenvolumen Explorative und automatisierte Analyse Hohe Velocity Batch Layer und Speed Layer Analytics Appliances Hohe Skalier- barkeit, großes Datenvolumen Explorative und automatisierte Analyse Hohe Performance durch parallele Abfragebearbeitung Batch Layer und Speed Layer Optimierung Analyse- szenario Velocity Lambda- Architektur Mapping auf geeignete technische Lösungen Identifikation der Anforderungen und Trade-Offs der spezifischen Anwendung Unternehmensarchitektur als Randbedingung  Zu unterstützende Businessprozesse  Informationsarchitektur (Informationshoheit, Charakteristika der Daten wie Langlebigkeit, Stammdaten vs. aggregierte Daten, dispositive vs. operative Daten, Schutzcharakteristik) Folie 35 Visualisierung Automatisierung Data Mining  Etablieren einer auf interdisziplinärer Zusammenarbeit beruhenden Vorgehensweise mit kurzen Feedbackzyklen  Team bestehend aus Fachexperten, Analyse- Spezialisten, Visualisierungs- Spezialisten und Entwicklern Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter
  35. 35. © Zühlke 2013 Informationsquellen Lambda-Architektur und Big-Data-Architekturen • Nathan Marz and James Warren: Big Data - Principles and best practices of scalable realtime data systems, Manning 2012 • James Kinley: The Lambda Architecture: principles for architecting realtime Big Data systems, http://jameskinley.tumblr.com/post/37398560534/the-lambda-architecture-principles-for-architecting • Nathan Marz: The Secrets of Building Realtime Big Data Systems, http://de.slideshare.net/nathanmarz/the-secrets-of-building-realtime-big-data-systems • Chris Eaton, Dirk Deroos, Tom Deutsch, George Lapis, Paul Zikopoulos: Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data, McGraw Hill 2012 Map / Reduce • Jeffrey Dean und Sanjay Ghemawat: MapReduce: Simplified Data Processing on Large Clusters, Google Labs 2004, http://research.google.com/archive/mapreduce.html Rechtliche Aspekte • Safe Harbor-Framework des US-Department of Commerce: http://export.gov/safeharbor/index.asp • Arnd Böken: Patriot Act und Cloud Computing: Zugriff auf Zuruf? iX 01/2012, http://www.heise.de/ix/artikel/Zugriff-auf-Zuruf-1394430.html 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Folie 36
  36. 36. © Zühlke 20139. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Folie 37 Georg Molter

×