White Paper saracus
Big Data und Business Intelligence
saracus consulting GmbH
Hafenweg 46
D-48155 Münster
Fon. +49 251 98721 0
Fax. +49 251 98721 26
saracus consulting AG
Täfer...
BigDataund BusinessIntelligence
www.saracus.com Seite 3
Konkrete Anwendungsfelder von Big Data
Die Anwendungsfelder erstre...
BigDataund BusinessIntelligence
www.saracus.com Seite 4
Die Treiber von Big Data
An den konkreten Anwendungsfeldern im vor...
BigDataund BusinessIntelligence
www.saracus.com Seite 5
Hardware & Operating System
Dem Ziel der budgetfreundlichen Infras...
BigDataund BusinessIntelligence
www.saracus.com
Aufbauend auf den Grundprinzipien existieren verschiedene Ausprägungen von...
BigDataund BusinessIntelligence
www.saracus.com Seite 7
Datenintegration / ETL
Im Bereich der Datenintegration müssen die ...
BigDataund BusinessIntelligence
www.saracus.com Seite 8
Strategisches Ziel ist eine nahtlose Integration der unterschiedli...
BigDataund BusinessIntelligence
www.saracus.com Seite 9
Big Data und Business Intelligence
Big Data und Business Intellige...
Technologie
BigDataund BusinessIntelligence
www.saracus.com Seite 10
• Strategie- & Architektur-
beratung zu Big Data BI
•...
Nächste SlideShare
Wird geladen in …5
×

Big Data und Business Intelligence

517 Aufrufe

Veröffentlicht am

Veröffentlicht in: Technologie
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
517
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
1
Aktionen
Geteilt
0
Downloads
9
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Big Data und Business Intelligence

  1. 1. White Paper saracus Big Data und Business Intelligence
  2. 2. saracus consulting GmbH Hafenweg 46 D-48155 Münster Fon. +49 251 98721 0 Fax. +49 251 98721 26 saracus consulting AG Täfernstrasse 4 CH-5405 Baden-Dättwil Fon. +41 56 483 02 20 Fax. +41 56 483 02 21 saracus consulting DOO Vizantijski Bulevar 78 SRB-18000 Nis BigDataund BusinessIntelligence www.saracus.com Seite 2 Big Data ist aktuell auf jeder Agenda im IT-Bereich zu finden und jeder Anbieter gibt seinem Produktportfolio diese Prägung. Eine genaue Definition existiert noch nicht, bisweilen findet eine Abgrenzung des Begriffs über Kriterien wie „Volume, Variety und Velocity“ Anwendung, also der Eigenschaft eines Anwendungssystems große Datenmengen mit beliebiger Datenstrukturkomplexität in Echtzeit zu verarbeiten. Damit fällt es mitunter leicht, eine Lösung im Bereich Big Data zu positionieren. Bis heute gibt es aber nur rudimentäre Aussagen über konkrete Einsatzszenarien und Erfahrungswerte für den Einsatz von Big Data Technologien und Kosten-/Nutzenanalysen sind eher theoretischer Natur. Damit stellt sich die Frage, ob Big Data eher als Nischenthema oder strategische Investition anzusehen ist. Von besonderem Interesse ist dabei das Potenzial von Big Data, Unternehmensprozesse zu optimieren, sowohl rein operative Prozesse wie auch im dispositiven Bereich, in dem sich Business Intelligence (BI) Konzepte über Jahre etabliert haben. Das Zusammenspiel von Big Data und Business Intelligence ist ein sehr junges Entwicklungsfeld mit hoher Ausprägungsvielfalt, in dem aktuell die Weichen für zukünftige Informationsarchitekturen gestellt werden. Dieser Artikel beschreibt den Status Quo des Themenbereichs Big Data und seine Beziehung zum Business Intelligence. Big Data – Bedeutung und Einordnung Big Data ist eine Thema, welches im Kontext von diversen IT-Trends zum Hype-Thema gewachsen ist und daher nicht isoliert für sich betrachtet werden kann. Unter dem Einfluss immer stärker vernetzter Anwendungen mit neuen Endgeräten produzieren wir mittlerweile immense Datenmengen, sowohl im geschäftlichen wie auch im privaten Bereich, in dem über soziale Netzwerke, Blogs und Web Shops ganz neue Informationsarten im Bereich Social Media das tägliche Leben prägen. IT-Anbieter haben diese Trends aufgegriffen und bieten sowohl geeignete Architektur- und Betreibermodelle, zum Beispiel in Form einer Cloud, wie auch neue Verarbeitungstechnologien, wie beispielsweise die Nutzung von NoSQL-Datenbanken an. Big Data ist dabei eine Komponente dieser IT-Entwicklungen und wird häufig abstrakt über seine Funktionalität abgegrenzt: „Big Data bietet Methoden und Technologien für das Erfassen, Speichern und Analysieren poly-strukturierter Daten genau dort, wo klassische Informationssysteme heute an ihre Grenzen stoßen.“ Bricht man diese abstrakten Kriterien auf konkrete Eigenschaften runter, lassen sich die Anwendungsfelder von Big Data wie folgt charakterisieren: • Es handelt sich um große Datenmengen (maschinenerzeugt oder immenser Nutzerkreis als Daten-Produzent)  Volumen der Analytik • Es geht vorwiegend um schnelle Auswertungen und Analytik (Recommendations, Werbung, Missbrauchserkennung)  Hohe Geschwindigkeit / Performance der Analytik • Das Ergebnis der schnellen Analytik greift in die operativen Prozesse ein (Handy- oder Kreditkarte sperren, Transaktionen canceln, „on the fly“ individuelle Werbung)  Operationalisierung der Analytik • Die Analytik muss zu einem hohen Anteil Vorhersagemodelle mit einbeziehen (Verhaltensmuster, Missbrauchsmuster)  Starke(r) Ausrichtung/Einbezug der Analytik auf „Vorhersagemodelle“ • Neue Datenquellen und –systeme greifen sehr stark ein (Soziale Netzwerke, Sensorik, Scanner) und bieten unterschiedlichste Strukturen  Variabilität der Datenstrukturen • Unsicherheit über den „nutzbaren“ Teil des Datenangebotes erfordert eine intelligente Filterung der Daten (Blogs, Kommentare)  Teilweise Filternotwendigkeit in der Analytik • Unsicherheit über den „wahren“ Inhalt des Datenangebotes erfordert eine intelligente Bewertung der Daten (Bewertungen in Online-Shops)  Teilweise Bewertungsnotwendigkeit in der Analytik • Daten werden zu jeder Zeit aktualisiert  Online-Analytik notwendig (im Sinne von Real time-Auswertungen) • Datenschutz und –sicherheit spielen eine große Rolle (Gesundheitswesen, Vorratshaltung von Transaktionsdaten)  Datenschutz- und –sicherheitsaspekte in der Analytik Wie zu erkennen ist, sind die Charakteristika keine grundsätzlich neuen Anforderungen oder Entwicklungen. Viele Aspekte wurden in der Vergangenheit bereits adressiert, wie etwa im Real time-Kundenprofiling von CRM-Systemen. Das wirklich neue an der Big Data Entwicklung ist die technologische Möglichkeit, neue Informationsarten in die Unternehmensprozesse einzubinden, deren geschäftliches Potenzial heute noch gar nicht abgeschätzt werden kann.
  3. 3. BigDataund BusinessIntelligence www.saracus.com Seite 3 Konkrete Anwendungsfelder von Big Data Die Anwendungsfelder erstrecken sich über alle Branchen und Unternehmensprozesse. Einige Beispiele sind: • Versorgung, Logistik und Produktion RFID-Sensoren, Handscanner und GPS im Transport ermöglichen Routen- und Produktionsstrassenoptimierung, Kostensenkung und operative Effektivität. • Online Services und Web Analysen Internet-basierte Firmen nutzen Big Data zur Ableitung von Werbungspositionierungen, Kundenprofiling und Kapazitätsplanung sowie Clickstream- und Segment-Analysen. • Finanzdienstleistung Transaktionsanalysen unterstützen Missbrauchsanalysen und dienen als Grundlage für Handelsoptimierungen. Weiterhin werden neue regulatorische Anforderungen an die Datenhaltung unterstützt. • Energie und Versorgung Datenstreams von elektronischen Sensoren können zu Überwachungszwecken, für Verbrauchsanalysen oder Frühwarnsysteme in der Stromversorgung oder sonstigen Pipelines genutzt werden. • Medien und Telekommunikation Streaming Media, Smartphones, Tablets, Web-Verhalten und Text-Nachrichten werden mittlerweile immer & überall genutzt/generiert und bergen einen noch unbeschreibbaren Fundus an Wissen über Nutzer, deren Verhalten und Vorlieben. • Gesundheitswesen und Lebensumstände Elektronisch-medizinische Daten dienen zur Analyse von Diagnose- und Therapiemöglichkeiten, klinischen Studien sowie Verhaltensmuster und bieten Verbesserungspotenzial sowohl für Patienten wie auch das öffentliche und politische Gesundheitsmanagement. • Handel und Endverbraucher Transaktionsdaten liefern Muster zum Kundenverhalten und zur Markenloyalität sowie ein Stimmungsbarometer im Zusammenhang mit Daten aus sozialen Netzwerken, Blogs etc.. Social Media Analysen / Stimmungsbarometer Klassische BI Text-Mining Video- Analysen Verhaltensbasiertes und ereignisgesteuertes Marketing Missbrauchserkennung inkl. Social Media in Finanzdienstleistung und Telekommunikation Preispolitik und Aktionsmanagement im Handel Gesundheits- management Kapazitäts-/ Routen- planung Telemetrieanalytik & Verhaltens- modelle im operat. Betrieb Blog- & eShop Analysen/ Stimmungs- barometer Datenstrukturkomplexität Strukturiert UnstrukturiertPoly-strukturiert VerarbeitungsgeschwindigkeitRealtimeBatch Quelle: In Anlehnung an SAS/IDC „Big Data Analytics: Future Architectures, Skills and Roadmaps for the CIO”
  4. 4. BigDataund BusinessIntelligence www.saracus.com Seite 4 Die Treiber von Big Data An den konkreten Anwendungsfeldern im vorherigen Kapitel lassen sich schon einige Treiber von Big Data erkennen. Unser Verhalten im Umgang mit dem Internet, d.h. Web Shopping, Blogging und die Nutzung sozialer Netzwerke hat immer stärkeren Einfluss auf unser Konsumverhalten und muss sich demnach in den operativen und dispositiven Unternehmensprozessen am Markt wiederspiegeln. Dieser hat eine Transparenz und Geschwindigkeit erreicht, die Unternehmen nur noch unter Einbezug sämtlicher Informationskanäle und –arten erfolgreich nutzen können. Budgetfreundliche Infrastrukturen gewinnen aufgrund des immerwährenden Kostendrucks zunehmend an Bedeutung. „Infrastructure as a Service“ bietet hier neue Architektur- und Betreibermodelle in einer Cloud und kann Hard- und Software-Ressourcen „on demand“ bereitstellen. Aber auch für die unternehmensinterne Infrastruktur forcieren sich Entwicklungen hin zu günstigen Commodity-Servern mit einer verteilten Daten- und Anwendungsstruktur. Für die Verarbeitung und Speicherung großer Datenmengen auf derartigen Systemen werden altbekannte Ansätze neu inszeniert und vielfach durch die Open-Source-Gemeinde weiterentwickelt. Hierzu gehören unter anderem verteilte Dateisysteme wie Hadoop oder NoSQL-Datenbanken. Dass dieses Vorgehen durchaus vielversprechend ist, zeigen alleine schon die vielfachen „kommerziellen Distributionen“, welche auf diesen neuen Technologien basieren. Zusätzliche Dynamik gewinnt Big Data auch durch die Erkenntnis, dass mit diesen neuen Technologien eine weitere Operationalisierung der klassischen BI machbar scheint. „Business-Entscheidungen in Echtzeit“ auf Basis von Standardanwendungen und –modellen und nicht mehr aufgrund von langwierigen und schwer nachvollziehbaren Berichtsgenerierungen oder proprietärer Spezialsoftware lautet die Devise; neue Rollen und Organisationsformen dazu werden am Markt schon gehandelt. Der „Data Scientist“ beispielsweise sichert einen nahtlosen Übergang zwischen der operativen und dispositiven Welt durch standardisierte Modellierung und Anwendungsnutzung aus technischer und fachlicher Sicht. Die Konzepte hinter Big Data, Methoden und Instrumente Die Konzepte lassen sich aus dem Einsatzzweck „Verarbeitung poly-strukturierter Datenmassen auf kostengünstigen Infrastrukturen“ und daraus abgeleiteter Big Data Marktsegmente strukturieren. Hardware & Operating System Distributionen Daten Management Komponenten Analytik und Visualisierung Services • Speicher • Server • Netzwerk • Hadoop community Distributionen • Hadoop Enterprise Distributionen • Non-Hadoop Big Data Frameworks • NoSQl Datenbanken • Dateninte- gration / ETL • Datenqualität und Governance • Analytische Entwicklungs- plattformen • Erweiterte analytische Anwendungen • Daten- visualisierungs werkzeuge • Business Intelligence Anwendungen • Beratung • Training • Installation • Wartung • Hosting (IaaS) z.B. Dell, HP, IBM, Cisco z.B. Cloudera, IBM, MapR, Microsoft z.B. DataStax mit Cassandra, CouchDB, MongoDB IBM, Informatica, Syncsort z.B. Karmashere, Datameer, SAS, Tableau, Revolut- ion Analytics, MicroStategy z.B. Amazon Web Services, Cloudera, saracus consulting MPP, spaltenbasierte DWH appliances & In-Memory-Techniken, z.B. EMC Greenplum, HP Vertica, Teradata Aster Data, IBM Netezza, SAP, Microsoft, Kognitio Quelle: In Anlehnung an Jeff Kelly @ Wikibon, http://wikibon.org/blog/navigating-the-big-data-vendor-landscape/
  5. 5. BigDataund BusinessIntelligence www.saracus.com Seite 5 Hardware & Operating System Dem Ziel der budgetfreundlichen Infrastruktur folgend setzt Big Data auf eine massiv parallele Architektur basierend auf Commodity Servern. Diese Architektur bietet die Voraussetzung für ein wachsendes System (scale out) mit annähernd linearer Skalierbarkeit und gleichzeitiger Ausfalltoleranz. Die Systeme sind überwiegend Unix-basiert. Distributionen Um die parallele Systemarchitektur ausschöpfen zu können, wird ein verteiltes Dateisystem mit entsprechenden Verteilungs- und Zugriffsmechanismen benötigt. Hier hat sich der MapReduce-Ansatz stark verbreitet, der Prozesse in disjunkte Teilprozesse splittet, diese parallel und verteilt ausführt (Map-Phase) und in einem weiteren Schritt die Zwischenergebnisse zusammenführt (Reduce-Phase). Das MapReduce-Framework übernimmt dabei die automatische Parallelisierung und Verteilung der Teilprozesse, realisiert Fehlertoleranzen bei Ausfall von Hard- oder Software, steuert das I/O-Scheduling und stellt Status- und Überwachungsparameter bereit. Der Entwickler muss „nur“ die Map- und Reduce-Funktion definieren. Inzwischen existieren diverse MapReduce-Frameworks (Google, Hadoop, Twister, etc.) in verschiedenen Programmiersprachen. Das bekannteste und verbreitetste ist Hadoop, welches sich mittlerweile zum Quasi-Standard entwickelt hat und in den meisten Distributionen Verwendung findet. Das Standard Basissystem Hadoop ist „Open Source für Commodity Server“ und verfügt neben dem verteilten Dateisystem (HDFS) über weitere Komponenten, zum Beispiel zur Datenhaltung oder Prozessausführung. Neben dieser Community-Edition existieren kommerzielle Distributionen, die neben professionellem Support auch i.d.R. weitere Systemmanagement-Komponenten bereitstellen. Weiterhin gibt es z.B. mit MapR auch andere Implementierungen des MapReduce-Ansatzes. Datenmanagement Komponenten Für die Datenspeicherung haben sich sogenannte NoSQL Datenbanken („not only SQL“) etabliert. Ihren Ursprung haben sie bei Internet-basierten Unternehmen (Goolge, Facebook, Amazon, etc), die ihre Anforderungen nicht mit klassischen relationalen Datenbanken abdecken konnten und somit in Eigenregie anforderungsgerechte Datenhaltungssysteme entwickelten. Im Gegensatz zum relationalen Ansatz steht hierbei nicht die Transaktionssicherheit (ACID) im Vordergrund, sondern eine hohe Performance, flexible Datenstrukturen und – typen sowie hohe Verteilung und Verfügbarkeit. In Anlehnung an das CAP-Theorem, welches besagt, dass Datenspeichersysteme nicht gleichzeitig Verfügbarkeit, Konsistenz und Partitionstoleranz sicherstellen können, sondern nur zwei der drei Kriterien genügen, positionieren sich NoSQL Datenbanken im Bereich Partitionstoleranz und wahlweise Verfügbarkeit oder Konsistenz. Klassische relationale Daten- banken hingegen haben als ausgewiesene Eigenschaft stets volle Datenkonsistenz für alle Nutzer des Systems. Man spricht in diesem Zusammenhang bei NoSQL Datenbanken auch von „entspannter Konsistenz“. Die Grundprinzipien von NoSQL Datenbanken sind : • Key / Value – Speicherform • Lauffähig verteilt auf mehreren Rechnern (Cluster) • Partitionen und asynchrone Replikation verteilt über die Rechner • Entspannte Konsistenz Das CAP-Theorem von Speichersystemen (Consistency – Availability – Partition Tolerance) Availability Verfügbarkeit, d.h. alle Nutzer können stets lesen und schreiben Partition Tolerance Partitionstoleranz, d.h. das System funktioniert trotz Netzwerk- Partitionierung weiter Consistency Konsistenz, d.h. alle Nutzer haben stets die gleiche Sicht auf die Daten • Azur Storage, MongoDB, • BuigTable / HBase • Dynamo/S3 • CouchDB • Cassandra • Relationale, parallele DBMS Quelle: In Anlehnung an guide.couchdb.org
  6. 6. BigDataund BusinessIntelligence www.saracus.com Aufbauend auf den Grundprinzipien existieren verschiedene Ausprägungen von NoSQL Datenbanken: Key / Value Stores Speichern der Key/Value-Paare im Speicher oder in Datei, wobei die Datenbank weder Form noch Inhalt des Wertes kennt und über diesen auch nicht direkt abgefragt werden kann. Der Wert wird als binäres Objekt gespeichert. Vertreter dieser Art sind u.a. Amazon Dynamo oder MemcacheDB. Document Store Analog zu den Key / Value Stores, jedoch ist der Wert ein strukturiertes Dokument, das von der DB interpretiert werden kann und somit Abfragen über den Wert möglich sind. Datenbanken dieser Art haben häufig eine SQL- ähnliche Abfragesprache. Beispiele sind MongoDB, CouchDB oder Riak. Big Tables (auch column database oder wide column store genannt) Big Tables bestehen aus Spaltenfamilien, die wiederum aus Spalten oder Superspalten bestehen. Superspalten können dabei beliebige weitere Spalten beinhalten. Dieses Datenmodell entspricht somit einem verteilten, multidimensionalen, geordneten Würfel mit i.d.R. hoher Sparsity. Vertreter sind u.a. Google BigTable, Cassandra, Hbase, Voldemort oder Azure Tables. Graphendatenbanken Hierbei besteht das Datenmodell aus Graphen, Knoten, Kanten und Eigenschaften. Sie werden physisch als Key / Value-, BigTable oder einer Kombination aus beiden Methoden implementiert. Ihre besondere Stärke liegt in der Abbildung von Beziehungen. Beispiele sind AllegroGraph, Neo4j oder DEX. Der Modellierungsansatz relational versus NoSQL Die Modellierung von NoSQL Datenbanken folgt einer anderen Philosophie als der klassischen (relationalen oder multidimensionalen) Modellierung. In der klassischen Modellierung leitet sich das Datenmodell in einem ersten Schritt aus der relationalen und redundanzfreien Abbildung der fachlichen Anforderungen mit seinen Objekten und Beziehungen untereinander ab. In einem zweiten Schritt werden dann die möglichen und wahrscheinlichen Zugriffspfade der Nutzer durch weitere Hilfskonstrukte wie Views, Aggregationstabellen, partielle Replikationsdatenbestände, Indexierung oder Partitionierung möglichst in Richtung Performance optimiert. Dieses Verfahren sichert die größtmögliche Flexibilität für Ad hoc Analytik. Für eine NoSQL Datenbank ist der Zugriffspfad, d.h. die Abfrage entscheidend. Vereinfacht ausgedrückt, wird für jede Abfrage eine eigene „Tabelle“ erstellt. Redundanzen werden hierbei in Kauf genommen, Speicheraspekte durch Kompressionsprozesse egalisiert. Da NoSQL Datenbanken flexibel von der Datenstruktur sind, können Strukturänderungen zu jedem Zeitpunkt einfach umgesetzt werden. SQL – like Key / Value - like Produkt Datum Anzahl Lieferant Apfel 29.12.2011 60 Ballante Banane - - - Birne 02.02.2012 66 Polente Möhre - - - Zucchini 03.11.2011 52 Bollente Key Value Apfel Datum 29.12.2011 Apfel Anzahl 60 Apfel Lieferant Ballante Birne Datum 02.02.2012 : : Seite 6
  7. 7. BigDataund BusinessIntelligence www.saracus.com Seite 7 Datenintegration / ETL Im Bereich der Datenintegration müssen die Datenverarbeitungsprozesse entweder selbst implementiert werden, was einer normalen Programmieraufgabe entspricht oder es werden ETL-Tools eingesetzt. Die führenden ETL- Werkzeuge verfügen bereits über Konnektoren sowohl für den Zugriff auf Hadoop-Cluster als auch auf NoSQL Datenbanken. Aus Sicht des ETL-Werkzeug-Anwenders handelt es sich „nur“ um neue Quellen oder Ziele. Analytik und Visualisierung Für die Analytik im Bereich Big Data gibt es die unterschiedlichsten Varianten. Allen gemeinsam ist nur die Art der Datenquelle (HDFS) und das Ziel (BI-Tool oder weitere analytische Anwendung wie etwa Data Mining Werkzeug). Die grundlegendste Variante ist Nutzung des Hadoop Ökosystems, bei dem Entwickler jede Form des Datenzugriffs, der Datenverarbeitung und –visualisierung programmieren. Dies kann zwar alle Möglichkeiten der NoSQl Datenbank ausnutzen, ist aber nur für versierte Entwickler machbar. Die Nutzung herstellerspezifischer Visualisierungswerkzeuge oder BI-Tools ist zwar grundsätzlich über ODBC oder JDBC Schnittstellen möglich, jedoch ist hierbei zu beachten, dass (noch) nicht der gesamte Sprachumfang von SQL unterstützt wird. Die generierten SQL-Statements können daher unter Umständen nicht abgesetzt werden und müssen manuell angepasst werden. Eine weitere Variante besteht in der Nutzung einer Zwischenschicht, entweder als Wrapper (reine Konnektion) oder als Accelerator (Nutzung speicherbasierter Zugriffswerkzeuge). Folgende Grafiken verdeutlichen diese Methoden am Beispiel von LucidDB (Wrapper) und MicroStrategy/Kognitio (Accelerator). Services WRAPPER JDBC BI-Tool Quelle: In Anlehnung an http://www.nicholasgoodman.com/bt/blog/category/dynamobi/ Quelle: Hadoop architecture, posted in http://anonymousbi.wordpress.com/category/ nosql/
  8. 8. BigDataund BusinessIntelligence www.saracus.com Seite 8 Strategisches Ziel ist eine nahtlose Integration der unterschiedlichen Techniken und damit größtmögliche Transparenz in den BI-Tools sowie eine nahtlose Integration der darunter liegenden Datenschichten, wie in folgender Abbildung dargestellt. Hierbei sollten die Datenbestände Real time miteinander und mit den operativen Beständen verknüpft sein, um die größtmögliche Synergie aus beiden Welten zu generieren. DWH BI-Tool nativeODBC/ JDBC/ native ETL-Tool Quelle: In Anlehnung an http://nosql.mypopescu.com/post/681603154/ presentation-hive-a-petabyte-scale-data-warehouse Quelle: http://kognitio.blogspot.de/
  9. 9. BigDataund BusinessIntelligence www.saracus.com Seite 9 Big Data und Business Intelligence Big Data und Business Intelligence werden zusammenwachsen. Der klassische BI-Stack wird in seiner Grundstruktur erhalten bleiben und um neue Technologien in allen Schichten ergänzt werden, bis zu den Quellsystemen. Unternehmen, welche bereits Big Data Technologien in ihren operativen Prozessen nutzen, werden ihre analytischen Fähigkeiten auf diese Technologien konzentrieren (vor allem Unternehmen, deren Infrastruktur bzw. Geschäftsmodell Web-getrieben ist wie z.B. Facebook, Netflix, Web-Shops). Unternehmen mit klassischer BI und klassischen ERP-Systemen erschließen mit Big Data neue Informationsquellen und weiten ihre analytischen Funktionalitäten partiell aus. Die Abgrenzung bzw. der Übergang zwischen Big Data- und klassischen BI-Strukturen wird fließend sein und sich an der operativen bzw. dispositiven Ausrichtung der Anwendung orientieren. Folgende Grafik zeigt die saracus-Referenzarchitektur einer zukünftigen integrierten Big Data Business Intelligence Plattform. POS Social media Interaktions- agentInteraktions- agent Online - Produktionsworkflow - Batch/Dialog Operative- / ERP- / CRM- / POS- / Produktions-DB (ACID) Verteiltes Dateisystem z.B. Hadoop Data Mining Externe Quellen Interaktions- agent NoSQL DB Service Engine Nutzer / Kunde NoSQL Warehouse Klassisches Warehouse NoSQL / Appliance Rel.Data Mart Analyse- Verbund BI- / Application- Server BI- Anwender (Konsument-Power User) Data Science Operations REAL- TIME BATCH Ad hocReportingDiscovery Quelle: saracus Big Data Business Intelligence Referenzarchitektur
  10. 10. Technologie BigDataund BusinessIntelligence www.saracus.com Seite 10 • Strategie- & Architektur- beratung zu Big Data BI • Programmierung / Customizing Hadoop- basierter Systeme • Integration BI-Tools und • Customizing von ETL- Tools in Big Data Umgebungen • Anwendung v.Appliances • Werkzeugevaluation Warum saracus consulting? Die folgenden Faktoren sprechen für die Wahl der saracus consulting als Beratungs- und Integrationspartner: • Seit 1991 zu 100% fokussiert auf DWH, BI, CPM und aCRM • Mehrjährige Erfahrungen mit Big-Data-Technologien • Spezifische Vorgehensmethodik • Große Erfahrung mit wichtigen Technologien • Kombination von Business- und IT-Know-how • Umfangreiche Anzahl an ausgebildeten und erfahrenen Beratern, um auch große Projekte zeitgerecht fertig zu stellen • Full Service von der Analyse, Konzeption über Systemintegration bis zum Betrieb Der fließende Übergang (d.h. die Integration) von Big Data Analytics und klassischer BI kann und wird auf mehreren Schichten erfolgen. Der einfachste Weg mit der geringsten Integrationstiefe ist die Integration auf der ETL-Schicht. Dabei werden Daten über den ETL-Server ausgetauscht und auf separaten Strängen den Anwendungen zur Verfügung gestellt. Diese „Datenintegration“ erinnert sehr stark an die „EAI-Thematik“ und wird trotz erheblicher Daten- und Prozessredundanzen aufgrund geringer Komplexität vielfach gewählt werden. Er kann als einfacher Einstieg in Big Data Analytics angesehen werden. Klassische BI Server werden zunehmend verteilte Systeme als Quellen konnektieren können und nicht zuletzt werden die klassischen Systeme step by step durch Big Data Technologien substituiert werden, sei es durch originäre Big Data Technologien oder durch proprietäre Appliances. In jedem Fall wachsen die Datenbestände zusammen und der Zugriff erfolgt nur noch durch ein Werkzeug (mit Ausnahme spezieller Funktionalitäten wie Data Mining, für die es auch zukünftig dedizierte Anwendungen geben wird). Auf der Datenintegrationsschicht haben die ETL-Werkzeuge diese Verschmelzung bereits umgesetzt, auf Datenhaltungs- und analytischer Schicht ist sie initiiert. Zukünftig werden sich die BI-Systeme in den Zugriffsmöglichkeiten auf Big Data Datenbestände beziehungsweise NoSQl-Datenbanken abgrenzen. Klassische relationale Systeme auf analytischer Ebene (Data Marts) bekommen zunehmend Konkurrenz durch spezialisierte, vielfach in-memory- orientierte Datenbanken mit paralleler Verarbeitung. Das Grundprinzip der multidimensionalen Planung und Analyse wird aber bestehen bleiben und durch zusätzliche Analysemodelle (in Richtung Filterung und Mining), neue Visualisierungsmöglichkeiten (Reduktion für neue Präsentationsgeräte) und Nutzung zusätzlicher Endgeräte (im Wesentlichen Mobile/Tablet) erweitert werden. Neue Informationsarten (Links, Follower, unstrukturierte Texte & Dokumente) werden neue analytische Funktionalitäten generieren, z.B. Pfad-Analysen, Reichweitenanalysen oder intelligentes Text-Retrieval. Durch den Einsatz neuer Datenspeicherungstechniken werden sich klassische Methoden der Modellierung ändern. Aus organisatorischer Sicht wird der BI-Bereich in Unternehmen keine Reformation erleben, aber die Aufgabeninhalte der Business Analysten werden sich in Richtung analytische Modellierung verlagern, um die steigende Selektions- und Bewertungsnotwendigkeit sowie Vorhersagemodelle abbilden zu können. Häufig findet man für diese Rolle die Bezeichnung „Data Scientist“. Was Big Data bisher erreicht hat Big Data ist bislang eine bewiesene Lösung einer geeigneten Infrastruktur für die Speicherung und Verarbeitung poly-strukturierter Massendaten auf einem verteilten und fehlertoleranten System, konnte bislang aber noch nicht nahtlos die Lücken zum Business Intelligence schließen, weder mit eigenen Bordmitteln, noch mithilfe der klassischen BI-Tools. Es fehlt noch an der Abfragemöglichkeit komplexer Queries, der nahtlosen Integration in klassische BI-Tools und Aggregationsfunktionalitäten.

×