SlideShare ist ein Scribd-Unternehmen logo
1 von 10
Downloaden Sie, um offline zu lesen
White Paper saracus
Big Data und Business Intelligence
saracus consulting GmbH
Hafenweg 46
D-48155 Münster
Fon. +49 251 98721 0
Fax. +49 251 98721 26
saracus consulting AG
Täfernstrasse 4
CH-5405 Baden-Dättwil
Fon. +41 56 483 02 20
Fax. +41 56 483 02 21
saracus consulting DOO
Vizantijski Bulevar 78
SRB-18000 Nis
BigDataund BusinessIntelligence
www.saracus.com Seite 2
Big Data ist aktuell auf jeder Agenda im IT-Bereich zu finden und jeder Anbieter gibt seinem
Produktportfolio diese Prägung. Eine genaue Definition existiert noch nicht, bisweilen findet eine
Abgrenzung des Begriffs über Kriterien wie „Volume, Variety und Velocity“ Anwendung, also der
Eigenschaft eines Anwendungssystems große Datenmengen mit beliebiger Datenstrukturkomplexität in
Echtzeit zu verarbeiten. Damit fällt es mitunter leicht, eine Lösung im Bereich Big Data zu positionieren.
Bis heute gibt es aber nur rudimentäre Aussagen über konkrete Einsatzszenarien und Erfahrungswerte für
den Einsatz von Big Data Technologien und Kosten-/Nutzenanalysen sind eher theoretischer Natur. Damit
stellt sich die Frage, ob Big Data eher als Nischenthema oder strategische Investition anzusehen ist.
Von besonderem Interesse ist dabei das Potenzial von Big Data, Unternehmensprozesse zu optimieren,
sowohl rein operative Prozesse wie auch im dispositiven Bereich, in dem sich Business Intelligence (BI)
Konzepte über Jahre etabliert haben. Das Zusammenspiel von Big Data und Business Intelligence ist ein
sehr junges Entwicklungsfeld mit hoher Ausprägungsvielfalt, in dem aktuell die Weichen für zukünftige
Informationsarchitekturen gestellt werden.
Dieser Artikel beschreibt den Status Quo des Themenbereichs Big Data und seine Beziehung zum Business
Intelligence.
Big Data – Bedeutung und Einordnung
Big Data ist eine Thema, welches im Kontext von diversen IT-Trends zum Hype-Thema gewachsen ist und daher nicht
isoliert für sich betrachtet werden kann. Unter dem Einfluss immer stärker vernetzter Anwendungen mit neuen
Endgeräten produzieren wir mittlerweile immense Datenmengen, sowohl im geschäftlichen wie auch im privaten Bereich,
in dem über soziale Netzwerke, Blogs und Web Shops ganz neue Informationsarten im Bereich Social Media das tägliche
Leben prägen. IT-Anbieter haben diese Trends aufgegriffen und bieten sowohl geeignete Architektur- und
Betreibermodelle, zum Beispiel in Form einer Cloud, wie auch neue Verarbeitungstechnologien, wie beispielsweise die
Nutzung von NoSQL-Datenbanken an. Big Data ist dabei eine Komponente dieser IT-Entwicklungen und wird häufig
abstrakt über seine Funktionalität abgegrenzt: „Big Data bietet Methoden und Technologien für das Erfassen, Speichern
und Analysieren poly-strukturierter Daten genau dort, wo klassische Informationssysteme heute an ihre Grenzen stoßen.“
Bricht man diese abstrakten Kriterien auf konkrete Eigenschaften runter, lassen sich die Anwendungsfelder von Big Data
wie folgt charakterisieren:
• Es handelt sich um große Datenmengen (maschinenerzeugt oder immenser Nutzerkreis als Daten-Produzent) 
Volumen der Analytik
• Es geht vorwiegend um schnelle Auswertungen und Analytik (Recommendations, Werbung, Missbrauchserkennung) 
Hohe Geschwindigkeit / Performance der Analytik
• Das Ergebnis der schnellen Analytik greift in die operativen Prozesse ein (Handy- oder Kreditkarte sperren,
Transaktionen canceln, „on the fly“ individuelle Werbung)  Operationalisierung der Analytik
• Die Analytik muss zu einem hohen Anteil Vorhersagemodelle mit einbeziehen (Verhaltensmuster, Missbrauchsmuster)
 Starke(r) Ausrichtung/Einbezug der Analytik auf „Vorhersagemodelle“
• Neue Datenquellen und –systeme greifen sehr stark ein (Soziale Netzwerke, Sensorik, Scanner) und bieten
unterschiedlichste Strukturen  Variabilität der Datenstrukturen
• Unsicherheit über den „nutzbaren“ Teil des Datenangebotes erfordert eine intelligente Filterung der Daten (Blogs,
Kommentare)  Teilweise Filternotwendigkeit in der Analytik
• Unsicherheit über den „wahren“ Inhalt des Datenangebotes erfordert eine intelligente Bewertung der Daten
(Bewertungen in Online-Shops)  Teilweise Bewertungsnotwendigkeit in der Analytik
• Daten werden zu jeder Zeit aktualisiert  Online-Analytik notwendig (im Sinne von Real time-Auswertungen)
• Datenschutz und –sicherheit spielen eine große Rolle (Gesundheitswesen, Vorratshaltung von Transaktionsdaten) 
Datenschutz- und –sicherheitsaspekte in der Analytik
Wie zu erkennen ist, sind die Charakteristika keine grundsätzlich neuen Anforderungen oder Entwicklungen. Viele
Aspekte wurden in der Vergangenheit bereits adressiert, wie etwa im Real time-Kundenprofiling von CRM-Systemen. Das
wirklich neue an der Big Data Entwicklung ist die technologische Möglichkeit, neue Informationsarten in die
Unternehmensprozesse einzubinden, deren geschäftliches Potenzial heute noch gar nicht abgeschätzt werden kann.
BigDataund BusinessIntelligence
www.saracus.com Seite 3
Konkrete Anwendungsfelder von Big Data
Die Anwendungsfelder erstrecken sich über alle Branchen und Unternehmensprozesse. Einige Beispiele sind:
• Versorgung, Logistik und Produktion
RFID-Sensoren, Handscanner und GPS im Transport ermöglichen Routen- und Produktionsstrassenoptimierung,
Kostensenkung und operative Effektivität.
• Online Services und Web Analysen
Internet-basierte Firmen nutzen Big Data zur Ableitung von Werbungspositionierungen, Kundenprofiling und
Kapazitätsplanung sowie Clickstream- und Segment-Analysen.
• Finanzdienstleistung
Transaktionsanalysen unterstützen Missbrauchsanalysen und dienen als Grundlage für Handelsoptimierungen.
Weiterhin werden neue regulatorische Anforderungen an die Datenhaltung unterstützt.
• Energie und Versorgung
Datenstreams von elektronischen Sensoren können zu Überwachungszwecken, für Verbrauchsanalysen oder
Frühwarnsysteme in der Stromversorgung oder sonstigen Pipelines genutzt werden.
• Medien und Telekommunikation
Streaming Media, Smartphones, Tablets, Web-Verhalten und Text-Nachrichten werden mittlerweile immer &
überall genutzt/generiert und bergen einen noch unbeschreibbaren Fundus an Wissen über Nutzer, deren
Verhalten und Vorlieben.
• Gesundheitswesen und Lebensumstände
Elektronisch-medizinische Daten dienen zur Analyse von Diagnose- und Therapiemöglichkeiten, klinischen
Studien sowie Verhaltensmuster und bieten Verbesserungspotenzial sowohl für Patienten wie auch das
öffentliche und politische Gesundheitsmanagement.
• Handel und Endverbraucher
Transaktionsdaten liefern Muster zum Kundenverhalten und zur Markenloyalität sowie ein
Stimmungsbarometer im Zusammenhang mit Daten aus sozialen Netzwerken, Blogs etc..
Social Media Analysen /
Stimmungsbarometer
Klassische BI Text-Mining
Video-
Analysen
Verhaltensbasiertes und ereignisgesteuertes
Marketing
Missbrauchserkennung inkl. Social Media in
Finanzdienstleistung und Telekommunikation
Preispolitik und Aktionsmanagement im Handel
Gesundheits-
management
Kapazitäts-/
Routen-
planung
Telemetrieanalytik
& Verhaltens-
modelle im
operat. Betrieb Blog- & eShop
Analysen/
Stimmungs-
barometer
Datenstrukturkomplexität
Strukturiert UnstrukturiertPoly-strukturiert
VerarbeitungsgeschwindigkeitRealtimeBatch
Quelle: In Anlehnung an SAS/IDC „Big Data Analytics: Future Architectures, Skills and Roadmaps for the CIO”
BigDataund BusinessIntelligence
www.saracus.com Seite 4
Die Treiber von Big Data
An den konkreten Anwendungsfeldern im vorherigen Kapitel lassen sich schon einige Treiber von Big Data
erkennen. Unser Verhalten im Umgang mit dem Internet, d.h. Web Shopping, Blogging und die Nutzung sozialer
Netzwerke hat immer stärkeren Einfluss auf unser Konsumverhalten und muss sich demnach in den operativen und
dispositiven Unternehmensprozessen am Markt wiederspiegeln. Dieser hat eine Transparenz und Geschwindigkeit
erreicht, die Unternehmen nur noch unter Einbezug sämtlicher Informationskanäle und –arten erfolgreich nutzen
können.
Budgetfreundliche Infrastrukturen gewinnen aufgrund des immerwährenden Kostendrucks zunehmend an
Bedeutung. „Infrastructure as a Service“ bietet hier neue Architektur- und Betreibermodelle in einer Cloud und
kann Hard- und Software-Ressourcen „on demand“ bereitstellen. Aber auch für die unternehmensinterne
Infrastruktur forcieren sich Entwicklungen hin zu günstigen Commodity-Servern mit einer verteilten Daten- und
Anwendungsstruktur. Für die Verarbeitung und Speicherung großer Datenmengen auf derartigen Systemen werden
altbekannte Ansätze neu inszeniert und vielfach durch die Open-Source-Gemeinde weiterentwickelt. Hierzu
gehören unter anderem verteilte Dateisysteme wie Hadoop oder NoSQL-Datenbanken. Dass dieses Vorgehen
durchaus vielversprechend ist, zeigen alleine schon die vielfachen „kommerziellen Distributionen“, welche auf
diesen neuen Technologien basieren.
Zusätzliche Dynamik gewinnt Big Data auch durch die Erkenntnis, dass mit diesen neuen Technologien eine weitere
Operationalisierung der klassischen BI machbar scheint. „Business-Entscheidungen in Echtzeit“ auf Basis von
Standardanwendungen und –modellen und nicht mehr aufgrund von langwierigen und schwer nachvollziehbaren
Berichtsgenerierungen oder proprietärer Spezialsoftware lautet die Devise; neue Rollen und Organisationsformen
dazu werden am Markt schon gehandelt. Der „Data Scientist“ beispielsweise sichert einen nahtlosen Übergang
zwischen der operativen und dispositiven Welt durch standardisierte Modellierung und Anwendungsnutzung aus
technischer und fachlicher Sicht.
Die Konzepte hinter Big Data, Methoden und Instrumente
Die Konzepte lassen sich aus dem Einsatzzweck „Verarbeitung poly-strukturierter Datenmassen auf kostengünstigen
Infrastrukturen“ und daraus abgeleiteter Big Data Marktsegmente strukturieren.
Hardware &
Operating
System
Distributionen Daten
Management
Komponenten
Analytik und
Visualisierung
Services
• Speicher
• Server
• Netzwerk
• Hadoop
community
Distributionen
• Hadoop
Enterprise
Distributionen
• Non-Hadoop
Big Data
Frameworks
• NoSQl
Datenbanken
• Dateninte-
gration / ETL
• Datenqualität
und Governance
• Analytische
Entwicklungs-
plattformen
• Erweiterte
analytische
Anwendungen
• Daten-
visualisierungs
werkzeuge
• Business
Intelligence
Anwendungen
• Beratung
• Training
• Installation
• Wartung
• Hosting
(IaaS)
z.B. Dell, HP,
IBM, Cisco
z.B. Cloudera,
IBM, MapR,
Microsoft
z.B. DataStax mit
Cassandra, CouchDB,
MongoDB IBM,
Informatica, Syncsort
z.B. Karmashere,
Datameer, SAS,
Tableau, Revolut-
ion Analytics,
MicroStategy
z.B. Amazon
Web Services,
Cloudera,
saracus
consulting
MPP, spaltenbasierte DWH appliances & In-Memory-Techniken,
z.B. EMC Greenplum, HP Vertica, Teradata Aster Data, IBM
Netezza, SAP, Microsoft, Kognitio
Quelle: In Anlehnung an Jeff Kelly @ Wikibon, http://wikibon.org/blog/navigating-the-big-data-vendor-landscape/
BigDataund BusinessIntelligence
www.saracus.com Seite 5
Hardware & Operating System
Dem Ziel der budgetfreundlichen Infrastruktur folgend setzt Big Data auf eine massiv parallele Architektur basierend
auf Commodity Servern. Diese Architektur bietet die Voraussetzung für ein wachsendes System (scale out) mit
annähernd linearer Skalierbarkeit und gleichzeitiger Ausfalltoleranz. Die Systeme sind überwiegend Unix-basiert.
Distributionen
Um die parallele Systemarchitektur ausschöpfen zu können, wird ein verteiltes Dateisystem mit entsprechenden
Verteilungs- und Zugriffsmechanismen benötigt. Hier hat sich der MapReduce-Ansatz stark verbreitet, der Prozesse
in disjunkte Teilprozesse splittet, diese parallel und verteilt ausführt (Map-Phase) und in einem weiteren Schritt die
Zwischenergebnisse zusammenführt (Reduce-Phase). Das MapReduce-Framework übernimmt dabei die
automatische Parallelisierung und Verteilung der Teilprozesse, realisiert Fehlertoleranzen bei Ausfall von Hard- oder
Software, steuert das I/O-Scheduling und stellt Status- und Überwachungsparameter bereit. Der Entwickler muss
„nur“ die Map- und Reduce-Funktion definieren. Inzwischen existieren diverse MapReduce-Frameworks (Google,
Hadoop, Twister, etc.) in verschiedenen Programmiersprachen. Das bekannteste und verbreitetste ist Hadoop,
welches sich mittlerweile zum Quasi-Standard entwickelt hat und in den meisten Distributionen Verwendung findet.
Das Standard Basissystem Hadoop ist „Open Source für Commodity Server“ und verfügt neben dem verteilten
Dateisystem (HDFS) über weitere Komponenten, zum Beispiel zur Datenhaltung oder Prozessausführung. Neben
dieser Community-Edition existieren kommerzielle Distributionen, die neben professionellem Support auch i.d.R.
weitere Systemmanagement-Komponenten bereitstellen. Weiterhin gibt es z.B. mit MapR auch andere
Implementierungen des MapReduce-Ansatzes.
Datenmanagement Komponenten
Für die Datenspeicherung haben sich sogenannte NoSQL Datenbanken („not only SQL“) etabliert. Ihren Ursprung
haben sie bei Internet-basierten Unternehmen (Goolge, Facebook, Amazon, etc), die ihre Anforderungen nicht mit
klassischen relationalen Datenbanken abdecken konnten und somit in Eigenregie anforderungsgerechte
Datenhaltungssysteme entwickelten. Im Gegensatz zum relationalen Ansatz steht hierbei nicht die
Transaktionssicherheit (ACID) im Vordergrund, sondern eine hohe Performance, flexible Datenstrukturen und –
typen sowie hohe Verteilung und Verfügbarkeit.
In Anlehnung an das CAP-Theorem, welches
besagt, dass Datenspeichersysteme nicht
gleichzeitig Verfügbarkeit, Konsistenz und
Partitionstoleranz sicherstellen können, sondern
nur zwei der drei Kriterien genügen, positionieren
sich NoSQL Datenbanken im Bereich
Partitionstoleranz und wahlweise Verfügbarkeit
oder Konsistenz. Klassische relationale Daten-
banken hingegen haben als ausgewiesene
Eigenschaft stets volle Datenkonsistenz für alle
Nutzer des Systems.
Man spricht in diesem Zusammenhang bei NoSQL
Datenbanken auch von „entspannter Konsistenz“.
Die Grundprinzipien von NoSQL Datenbanken sind :
• Key / Value – Speicherform
• Lauffähig verteilt auf mehreren Rechnern (Cluster)
• Partitionen und asynchrone Replikation verteilt über die Rechner
• Entspannte Konsistenz
Das CAP-Theorem von Speichersystemen
(Consistency – Availability – Partition Tolerance)
Availability
Verfügbarkeit, d.h. alle
Nutzer können stets
lesen und schreiben
Partition Tolerance
Partitionstoleranz,
d.h. das System
funktioniert trotz
Netzwerk-
Partitionierung
weiter
Consistency
Konsistenz, d.h. alle
Nutzer haben stets
die gleiche Sicht auf
die Daten
• Azur Storage, MongoDB,
• BuigTable / HBase
• Dynamo/S3
• CouchDB
• Cassandra
• Relationale,
parallele DBMS
Quelle: In Anlehnung an guide.couchdb.org
BigDataund BusinessIntelligence
www.saracus.com
Aufbauend auf den Grundprinzipien existieren verschiedene Ausprägungen von NoSQL Datenbanken:
Key / Value Stores
Speichern der Key/Value-Paare im Speicher oder in Datei, wobei die Datenbank weder Form noch Inhalt des Wertes
kennt und über diesen auch nicht direkt abgefragt werden kann. Der Wert wird als binäres Objekt gespeichert.
Vertreter dieser Art sind u.a. Amazon Dynamo oder MemcacheDB.
Document Store
Analog zu den Key / Value Stores, jedoch ist der Wert ein strukturiertes Dokument, das von der DB interpretiert
werden kann und somit Abfragen über den Wert möglich sind. Datenbanken dieser Art haben häufig eine SQL-
ähnliche Abfragesprache. Beispiele sind MongoDB, CouchDB oder Riak.
Big Tables (auch column database oder wide column store genannt)
Big Tables bestehen aus Spaltenfamilien, die wiederum aus Spalten oder Superspalten bestehen. Superspalten
können dabei beliebige weitere Spalten beinhalten. Dieses Datenmodell entspricht somit einem verteilten,
multidimensionalen, geordneten Würfel mit i.d.R. hoher Sparsity. Vertreter sind u.a. Google BigTable, Cassandra,
Hbase, Voldemort oder Azure Tables.
Graphendatenbanken
Hierbei besteht das Datenmodell aus Graphen, Knoten, Kanten und Eigenschaften. Sie werden physisch als Key /
Value-, BigTable oder einer Kombination aus beiden Methoden implementiert. Ihre besondere Stärke liegt in der
Abbildung von Beziehungen. Beispiele sind AllegroGraph, Neo4j oder DEX.
Der Modellierungsansatz relational versus NoSQL
Die Modellierung von NoSQL Datenbanken folgt einer anderen Philosophie als der klassischen (relationalen oder
multidimensionalen) Modellierung. In der klassischen Modellierung leitet sich das Datenmodell in einem ersten
Schritt aus der relationalen und redundanzfreien Abbildung der fachlichen Anforderungen mit seinen Objekten und
Beziehungen untereinander ab. In einem zweiten Schritt werden dann die möglichen und wahrscheinlichen
Zugriffspfade der Nutzer durch weitere Hilfskonstrukte wie Views, Aggregationstabellen, partielle
Replikationsdatenbestände, Indexierung oder Partitionierung möglichst in Richtung Performance optimiert. Dieses
Verfahren sichert die größtmögliche Flexibilität für Ad hoc Analytik.
Für eine NoSQL Datenbank ist der Zugriffspfad, d.h. die Abfrage entscheidend. Vereinfacht ausgedrückt, wird für
jede Abfrage eine eigene „Tabelle“ erstellt. Redundanzen werden hierbei in Kauf genommen, Speicheraspekte
durch Kompressionsprozesse egalisiert. Da NoSQL Datenbanken flexibel von der Datenstruktur sind, können
Strukturänderungen zu jedem Zeitpunkt einfach umgesetzt werden.
SQL – like Key / Value - like
Produkt Datum Anzahl Lieferant
Apfel 29.12.2011 60 Ballante
Banane - - -
Birne 02.02.2012 66 Polente
Möhre - - -
Zucchini 03.11.2011 52 Bollente
Key Value
Apfel Datum 29.12.2011
Apfel Anzahl 60
Apfel Lieferant Ballante
Birne Datum 02.02.2012
: :
Seite 6
BigDataund BusinessIntelligence
www.saracus.com Seite 7
Datenintegration / ETL
Im Bereich der Datenintegration müssen die Datenverarbeitungsprozesse entweder selbst implementiert werden,
was einer normalen Programmieraufgabe entspricht oder es werden ETL-Tools eingesetzt. Die führenden ETL-
Werkzeuge verfügen bereits über Konnektoren sowohl für den Zugriff auf Hadoop-Cluster als auch auf NoSQL
Datenbanken. Aus Sicht des ETL-Werkzeug-Anwenders handelt es sich „nur“ um neue Quellen oder Ziele.
Analytik und Visualisierung
Für die Analytik im Bereich Big Data gibt es die unterschiedlichsten Varianten. Allen gemeinsam ist nur die Art der
Datenquelle (HDFS) und das Ziel (BI-Tool oder weitere analytische Anwendung wie etwa Data Mining Werkzeug).
Die grundlegendste Variante ist Nutzung des Hadoop Ökosystems,
bei dem Entwickler jede Form des Datenzugriffs, der
Datenverarbeitung und –visualisierung programmieren.
Dies kann zwar alle Möglichkeiten der NoSQl Datenbank ausnutzen,
ist aber nur für versierte Entwickler machbar.
Die Nutzung herstellerspezifischer Visualisierungswerkzeuge
oder BI-Tools ist zwar grundsätzlich über ODBC oder JDBC
Schnittstellen möglich, jedoch ist hierbei zu beachten, dass (noch)
nicht der gesamte Sprachumfang von SQL unterstützt wird. Die
generierten SQL-Statements können daher unter Umständen
nicht abgesetzt werden und müssen manuell angepasst werden.
Eine weitere Variante besteht in der Nutzung einer Zwischenschicht, entweder als Wrapper (reine Konnektion) oder
als Accelerator (Nutzung speicherbasierter Zugriffswerkzeuge). Folgende Grafiken verdeutlichen diese Methoden
am Beispiel von LucidDB (Wrapper) und MicroStrategy/Kognitio (Accelerator).
Services
WRAPPER
JDBC
BI-Tool
Quelle: In Anlehnung an http://www.nicholasgoodman.com/bt/blog/category/dynamobi/
Quelle: Hadoop architecture, posted in
http://anonymousbi.wordpress.com/category/
nosql/
BigDataund BusinessIntelligence
www.saracus.com Seite 8
Strategisches Ziel ist eine nahtlose Integration der unterschiedlichen Techniken und damit größtmögliche
Transparenz in den BI-Tools sowie eine nahtlose Integration der darunter liegenden Datenschichten, wie in
folgender Abbildung dargestellt. Hierbei sollten die Datenbestände Real time miteinander und mit den operativen
Beständen verknüpft sein, um die größtmögliche Synergie aus beiden Welten zu generieren.
DWH
BI-Tool
nativeODBC/
JDBC/
native
ETL-Tool
Quelle: In Anlehnung an http://nosql.mypopescu.com/post/681603154/
presentation-hive-a-petabyte-scale-data-warehouse
Quelle: http://kognitio.blogspot.de/
BigDataund BusinessIntelligence
www.saracus.com Seite 9
Big Data und Business Intelligence
Big Data und Business Intelligence werden zusammenwachsen. Der klassische BI-Stack wird in seiner
Grundstruktur erhalten bleiben und um neue Technologien in allen Schichten ergänzt werden, bis zu
den Quellsystemen. Unternehmen, welche bereits Big Data Technologien in ihren operativen Prozessen
nutzen, werden ihre analytischen Fähigkeiten auf diese Technologien konzentrieren (vor allem
Unternehmen, deren Infrastruktur bzw. Geschäftsmodell Web-getrieben ist wie z.B. Facebook, Netflix,
Web-Shops). Unternehmen mit klassischer BI und klassischen ERP-Systemen erschließen mit Big Data
neue Informationsquellen und weiten ihre analytischen Funktionalitäten partiell aus. Die Abgrenzung
bzw. der Übergang zwischen Big Data- und klassischen BI-Strukturen wird fließend sein und sich an der
operativen bzw. dispositiven Ausrichtung der Anwendung orientieren. Folgende Grafik zeigt die
saracus-Referenzarchitektur einer zukünftigen integrierten Big Data Business Intelligence Plattform.
POS
Social
media
Interaktions-
agentInteraktions-
agent
Online - Produktionsworkflow - Batch/Dialog
Operative- / ERP- / CRM- /
POS- / Produktions-DB
(ACID)
Verteiltes Dateisystem z.B. Hadoop
Data
Mining
Externe
Quellen
Interaktions-
agent
NoSQL
DB
Service
Engine
Nutzer /
Kunde
NoSQL
Warehouse
Klassisches
Warehouse
NoSQL /
Appliance
Rel.Data
Mart
Analyse-
Verbund
BI- /
Application-
Server
BI-
Anwender
(Konsument-Power User)
Data Science
Operations
REAL-
TIME
BATCH
Ad hocReportingDiscovery
Quelle: saracus Big Data Business Intelligence Referenzarchitektur
Technologie
BigDataund BusinessIntelligence
www.saracus.com Seite 10
• Strategie- & Architektur-
beratung zu Big Data BI
• Programmierung /
Customizing Hadoop-
basierter Systeme
• Integration BI-Tools und
• Customizing von ETL-
Tools in Big Data
Umgebungen
• Anwendung v.Appliances
• Werkzeugevaluation
Warum saracus consulting?
Die folgenden Faktoren sprechen für die Wahl der saracus consulting als Beratungs- und
Integrationspartner:
• Seit 1991 zu 100% fokussiert auf DWH, BI, CPM und aCRM
• Mehrjährige Erfahrungen mit Big-Data-Technologien
• Spezifische Vorgehensmethodik
• Große Erfahrung mit wichtigen Technologien
• Kombination von Business- und IT-Know-how
• Umfangreiche Anzahl an ausgebildeten und erfahrenen Beratern,
um auch große Projekte zeitgerecht fertig zu stellen
• Full Service von der Analyse, Konzeption über Systemintegration bis zum Betrieb
Der fließende Übergang (d.h. die Integration) von Big Data Analytics und klassischer BI kann und wird
auf mehreren Schichten erfolgen. Der einfachste Weg mit der geringsten Integrationstiefe ist die
Integration auf der ETL-Schicht. Dabei werden Daten über den ETL-Server ausgetauscht und auf
separaten Strängen den Anwendungen zur Verfügung gestellt. Diese „Datenintegration“ erinnert sehr
stark an die „EAI-Thematik“ und wird trotz erheblicher Daten- und Prozessredundanzen aufgrund
geringer Komplexität vielfach gewählt werden. Er kann als einfacher Einstieg in Big Data Analytics
angesehen werden. Klassische BI Server werden zunehmend verteilte Systeme als Quellen
konnektieren können und nicht zuletzt werden die klassischen Systeme step by step durch Big Data
Technologien substituiert werden, sei es durch originäre Big Data Technologien oder durch proprietäre
Appliances. In jedem Fall wachsen die Datenbestände zusammen und der Zugriff erfolgt nur noch durch
ein Werkzeug (mit Ausnahme spezieller Funktionalitäten wie Data Mining, für die es auch zukünftig
dedizierte Anwendungen geben wird). Auf der Datenintegrationsschicht haben die ETL-Werkzeuge
diese Verschmelzung bereits umgesetzt, auf Datenhaltungs- und analytischer Schicht ist sie initiiert.
Zukünftig werden sich die BI-Systeme in den Zugriffsmöglichkeiten auf Big Data Datenbestände
beziehungsweise NoSQl-Datenbanken abgrenzen. Klassische relationale Systeme auf analytischer
Ebene (Data Marts) bekommen zunehmend Konkurrenz durch spezialisierte, vielfach in-memory-
orientierte Datenbanken mit paralleler Verarbeitung. Das Grundprinzip der multidimensionalen
Planung und Analyse wird aber bestehen bleiben und durch zusätzliche Analysemodelle (in Richtung
Filterung und Mining), neue Visualisierungsmöglichkeiten (Reduktion für neue Präsentationsgeräte)
und Nutzung zusätzlicher Endgeräte (im Wesentlichen Mobile/Tablet) erweitert werden. Neue
Informationsarten (Links, Follower, unstrukturierte Texte & Dokumente) werden neue analytische
Funktionalitäten generieren, z.B. Pfad-Analysen, Reichweitenanalysen oder intelligentes Text-Retrieval.
Durch den Einsatz neuer Datenspeicherungstechniken werden sich klassische Methoden der
Modellierung ändern.
Aus organisatorischer Sicht wird der BI-Bereich in Unternehmen keine Reformation erleben, aber die
Aufgabeninhalte der Business Analysten werden sich in Richtung analytische Modellierung verlagern,
um die steigende Selektions- und Bewertungsnotwendigkeit sowie Vorhersagemodelle abbilden zu
können. Häufig findet man für diese Rolle die Bezeichnung „Data Scientist“.
Was Big Data bisher erreicht hat
Big Data ist bislang eine bewiesene Lösung einer geeigneten Infrastruktur für die Speicherung und
Verarbeitung poly-strukturierter Massendaten auf einem verteilten und fehlertoleranten System,
konnte bislang aber noch nicht nahtlos die Lücken zum Business Intelligence schließen, weder mit
eigenen Bordmitteln, noch mithilfe der klassischen BI-Tools. Es fehlt noch an der Abfragemöglichkeit
komplexer Queries, der nahtlosen Integration in klassische BI-Tools und Aggregationsfunktionalitäten.

Weitere ähnliche Inhalte

Was ist angesagt?

TIQView - Interaktives Data Profiling für Jedermann
TIQView - Interaktives Data Profiling für JedermannTIQView - Interaktives Data Profiling für Jedermann
TIQView - Interaktives Data Profiling für JedermannVizlib Ltd.
 
Big Data Webinar (Deutsch)
Big Data Webinar (Deutsch)Big Data Webinar (Deutsch)
Big Data Webinar (Deutsch)AWS Germany
 
Unternehmensweites Daten und Informationsmanagement
Unternehmensweites Daten und InformationsmanagementUnternehmensweites Daten und Informationsmanagement
Unternehmensweites Daten und InformationsmanagementNicki Borell
 
Den Informationsfluss beschleunigen
Den Informationsfluss beschleunigenDen Informationsfluss beschleunigen
Den Informationsfluss beschleunigenHervé Stalder
 
M-Files als bestes DMS/ECM-Produkt des Jahres nominiert
M-Files als bestes DMS/ECM-Produkt des Jahres nominiertM-Files als bestes DMS/ECM-Produkt des Jahres nominiert
M-Files als bestes DMS/ECM-Produkt des Jahres nominiertbhoeck
 
GraphTalks Hamburg - Semantic Data Management
GraphTalks Hamburg - Semantic Data ManagementGraphTalks Hamburg - Semantic Data Management
GraphTalks Hamburg - Semantic Data ManagementNeo4j
 
Data Market Austria - Research delivering results.
Data Market Austria - Research delivering results.Data Market Austria - Research delivering results.
Data Market Austria - Research delivering results.Data Market Austria
 
Analytics meets Big Data – R/Python auf der Hadoop/Spark-Plattform
Analytics meets Big Data – R/Python auf der Hadoop/Spark-PlattformAnalytics meets Big Data – R/Python auf der Hadoop/Spark-Plattform
Analytics meets Big Data – R/Python auf der Hadoop/Spark-PlattformRising Media Ltd.
 
Amtliche Statistik 2.0
Amtliche Statistik 2.0Amtliche Statistik 2.0
Amtliche Statistik 2.0benediktk
 
Warum NoSQL Datenbanken auf dem Vormarsch sind
Warum NoSQL Datenbanken auf dem Vormarsch sindWarum NoSQL Datenbanken auf dem Vormarsch sind
Warum NoSQL Datenbanken auf dem Vormarsch sindRegina Holzapfel
 
Open (Government) Data | Chancen - Risiken - Nutzen
Open (Government) Data | Chancen - Risiken - NutzenOpen (Government) Data | Chancen - Risiken - Nutzen
Open (Government) Data | Chancen - Risiken - NutzenOliver Bildesheim
 
Mobile BI - Mobilisieren von Unternehmensprozessen
Mobile BI - Mobilisieren von UnternehmensprozessenMobile BI - Mobilisieren von Unternehmensprozessen
Mobile BI - Mobilisieren von UnternehmensprozessenBARC GmbH
 
Daten als Wettbewerbsfaktor in Social Network Sites - DGI Konferenz 2012
Daten als Wettbewerbsfaktor in Social Network Sites - DGI Konferenz 2012 Daten als Wettbewerbsfaktor in Social Network Sites - DGI Konferenz 2012
Daten als Wettbewerbsfaktor in Social Network Sites - DGI Konferenz 2012 Laura Dorfer
 
Neo4j GraphTalks - Semantische Netze
Neo4j GraphTalks - Semantische NetzeNeo4j GraphTalks - Semantische Netze
Neo4j GraphTalks - Semantische NetzeNeo4j
 

Was ist angesagt? (18)

TIQView - Interaktives Data Profiling für Jedermann
TIQView - Interaktives Data Profiling für JedermannTIQView - Interaktives Data Profiling für Jedermann
TIQView - Interaktives Data Profiling für Jedermann
 
Posteingangsautomatisierung
PosteingangsautomatisierungPosteingangsautomatisierung
Posteingangsautomatisierung
 
Big Data Webinar (Deutsch)
Big Data Webinar (Deutsch)Big Data Webinar (Deutsch)
Big Data Webinar (Deutsch)
 
Crmexpo 2014 stuttgart
Crmexpo 2014 stuttgartCrmexpo 2014 stuttgart
Crmexpo 2014 stuttgart
 
Unternehmensweites Daten und Informationsmanagement
Unternehmensweites Daten und InformationsmanagementUnternehmensweites Daten und Informationsmanagement
Unternehmensweites Daten und Informationsmanagement
 
Big Data: Kunden auf der Spur
Big Data: Kunden auf der SpurBig Data: Kunden auf der Spur
Big Data: Kunden auf der Spur
 
Den Informationsfluss beschleunigen
Den Informationsfluss beschleunigenDen Informationsfluss beschleunigen
Den Informationsfluss beschleunigen
 
M-Files als bestes DMS/ECM-Produkt des Jahres nominiert
M-Files als bestes DMS/ECM-Produkt des Jahres nominiertM-Files als bestes DMS/ECM-Produkt des Jahres nominiert
M-Files als bestes DMS/ECM-Produkt des Jahres nominiert
 
GraphTalks Hamburg - Semantic Data Management
GraphTalks Hamburg - Semantic Data ManagementGraphTalks Hamburg - Semantic Data Management
GraphTalks Hamburg - Semantic Data Management
 
Data Market Austria - Research delivering results.
Data Market Austria - Research delivering results.Data Market Austria - Research delivering results.
Data Market Austria - Research delivering results.
 
Analytics meets Big Data – R/Python auf der Hadoop/Spark-Plattform
Analytics meets Big Data – R/Python auf der Hadoop/Spark-PlattformAnalytics meets Big Data – R/Python auf der Hadoop/Spark-Plattform
Analytics meets Big Data – R/Python auf der Hadoop/Spark-Plattform
 
Enterprise Search Technologien im Dienste der DSGVO / GDPR
Enterprise Search Technologien im Dienste der DSGVO / GDPREnterprise Search Technologien im Dienste der DSGVO / GDPR
Enterprise Search Technologien im Dienste der DSGVO / GDPR
 
Amtliche Statistik 2.0
Amtliche Statistik 2.0Amtliche Statistik 2.0
Amtliche Statistik 2.0
 
Warum NoSQL Datenbanken auf dem Vormarsch sind
Warum NoSQL Datenbanken auf dem Vormarsch sindWarum NoSQL Datenbanken auf dem Vormarsch sind
Warum NoSQL Datenbanken auf dem Vormarsch sind
 
Open (Government) Data | Chancen - Risiken - Nutzen
Open (Government) Data | Chancen - Risiken - NutzenOpen (Government) Data | Chancen - Risiken - Nutzen
Open (Government) Data | Chancen - Risiken - Nutzen
 
Mobile BI - Mobilisieren von Unternehmensprozessen
Mobile BI - Mobilisieren von UnternehmensprozessenMobile BI - Mobilisieren von Unternehmensprozessen
Mobile BI - Mobilisieren von Unternehmensprozessen
 
Daten als Wettbewerbsfaktor in Social Network Sites - DGI Konferenz 2012
Daten als Wettbewerbsfaktor in Social Network Sites - DGI Konferenz 2012 Daten als Wettbewerbsfaktor in Social Network Sites - DGI Konferenz 2012
Daten als Wettbewerbsfaktor in Social Network Sites - DGI Konferenz 2012
 
Neo4j GraphTalks - Semantische Netze
Neo4j GraphTalks - Semantische NetzeNeo4j GraphTalks - Semantische Netze
Neo4j GraphTalks - Semantische Netze
 

Ähnlich wie Big Data und Business Intelligence

Top 10 der Business Intelligence-Trends für das Jahr 2014
Top 10 der Business Intelligence-Trends für das Jahr 2014Top 10 der Business Intelligence-Trends für das Jahr 2014
Top 10 der Business Intelligence-Trends für das Jahr 2014Tableau Software
 
Matthias Bettag, DAALA Berlin: Veränderungen digital analytics in 2013
Matthias Bettag, DAALA Berlin: Veränderungen digital analytics in 2013Matthias Bettag, DAALA Berlin: Veränderungen digital analytics in 2013
Matthias Bettag, DAALA Berlin: Veränderungen digital analytics in 2013luna-park GmbH
 
DE - Module 4 - Data as a business model driver
DE - Module 4 - Data as a business model driverDE - Module 4 - Data as a business model driver
DE - Module 4 - Data as a business model drivercaniceconsulting
 
Business Intelligence (BI) Kompakt
Business Intelligence (BI) KompaktBusiness Intelligence (BI) Kompakt
Business Intelligence (BI) KompaktFilipe Felix
 
Fujitsu Storage Days 2018 - Erfahrungsbericht crisp research
Fujitsu Storage Days 2018 - Erfahrungsbericht crisp researchFujitsu Storage Days 2018 - Erfahrungsbericht crisp research
Fujitsu Storage Days 2018 - Erfahrungsbericht crisp researchFujitsu Central Europe
 
Big data im Marketing
Big data im MarketingBig data im Marketing
Big data im MarketingPeter Gentsch
 
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTiggesDas modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTiggesOPITZ CONSULTING Deutschland
 
Digitale Transformation in der Finanzbranche
Digitale Transformation in der FinanzbrancheDigitale Transformation in der Finanzbranche
Digitale Transformation in der FinanzbrancheTWT
 
Digitale Transformation für KMU
Digitale Transformation für KMUDigitale Transformation für KMU
Digitale Transformation für KMUGernot Sauerborn
 
OpenDMA - Daten Management Solution
OpenDMA  - Daten Management SolutionOpenDMA  - Daten Management Solution
OpenDMA - Daten Management SolutionTorsten Glunde
 
Big Data in Vertrieb und Marketing für eine klare Kundensicht
Big Data in Vertrieb und Marketing für eine klare KundensichtBig Data in Vertrieb und Marketing für eine klare Kundensicht
Big Data in Vertrieb und Marketing für eine klare KundensichtMichael Gisiger
 
Big Data_und auf was es wirklich ankommt. 1A Relations
Big Data_und auf was es wirklich ankommt. 1A RelationsBig Data_und auf was es wirklich ankommt. 1A Relations
Big Data_und auf was es wirklich ankommt. 1A RelationsGeorg Blum
 
Die Zukunft des Wissensmanagements
Die Zukunft des WissensmanagementsDie Zukunft des Wissensmanagements
Die Zukunft des WissensmanagementsEduard Daoud
 
Digital Data Insights 2018
Digital Data Insights 2018Digital Data Insights 2018
Digital Data Insights 2018Jürgen Seitz
 
Big data mc_05_2014_long
Big data mc_05_2014_longBig data mc_05_2014_long
Big data mc_05_2014_longAxel Poestges
 
BARC Was Datenmanagement Messbar Dazu Beitragen Kann
BARC Was Datenmanagement Messbar Dazu Beitragen KannBARC Was Datenmanagement Messbar Dazu Beitragen Kann
BARC Was Datenmanagement Messbar Dazu Beitragen KannDataValueTalk
 
DXC Technology - THRIVE Blog: Pay-Per-Use
DXC Technology - THRIVE Blog: Pay-Per-UseDXC Technology - THRIVE Blog: Pay-Per-Use
DXC Technology - THRIVE Blog: Pay-Per-UseDaniel Eiduzzis
 

Ähnlich wie Big Data und Business Intelligence (20)

Top 10 der Business Intelligence-Trends für das Jahr 2014
Top 10 der Business Intelligence-Trends für das Jahr 2014Top 10 der Business Intelligence-Trends für das Jahr 2014
Top 10 der Business Intelligence-Trends für das Jahr 2014
 
Matthias Bettag, DAALA Berlin: Veränderungen digital analytics in 2013
Matthias Bettag, DAALA Berlin: Veränderungen digital analytics in 2013Matthias Bettag, DAALA Berlin: Veränderungen digital analytics in 2013
Matthias Bettag, DAALA Berlin: Veränderungen digital analytics in 2013
 
DE - Module 4 - Data as a business model driver
DE - Module 4 - Data as a business model driverDE - Module 4 - Data as a business model driver
DE - Module 4 - Data as a business model driver
 
Analytics für Einsteiger
Analytics für EinsteigerAnalytics für Einsteiger
Analytics für Einsteiger
 
Business Intelligence (BI) Kompakt
Business Intelligence (BI) KompaktBusiness Intelligence (BI) Kompakt
Business Intelligence (BI) Kompakt
 
Fujitsu Storage Days 2018 - Erfahrungsbericht crisp research
Fujitsu Storage Days 2018 - Erfahrungsbericht crisp researchFujitsu Storage Days 2018 - Erfahrungsbericht crisp research
Fujitsu Storage Days 2018 - Erfahrungsbericht crisp research
 
Big data im Marketing
Big data im MarketingBig data im Marketing
Big data im Marketing
 
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTiggesDas modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
 
Digitale Transformation in der Finanzbranche
Digitale Transformation in der FinanzbrancheDigitale Transformation in der Finanzbranche
Digitale Transformation in der Finanzbranche
 
Digitale Transformation für KMU
Digitale Transformation für KMUDigitale Transformation für KMU
Digitale Transformation für KMU
 
OpenDMA - Daten Management Solution
OpenDMA  - Daten Management SolutionOpenDMA  - Daten Management Solution
OpenDMA - Daten Management Solution
 
Big Data in Vertrieb und Marketing für eine klare Kundensicht
Big Data in Vertrieb und Marketing für eine klare KundensichtBig Data in Vertrieb und Marketing für eine klare Kundensicht
Big Data in Vertrieb und Marketing für eine klare Kundensicht
 
SAS Data Governance
SAS Data GovernanceSAS Data Governance
SAS Data Governance
 
Big Data_und auf was es wirklich ankommt. 1A Relations
Big Data_und auf was es wirklich ankommt. 1A RelationsBig Data_und auf was es wirklich ankommt. 1A Relations
Big Data_und auf was es wirklich ankommt. 1A Relations
 
Big Data Analytics Forum 2015: Wie gelingt der Schnellstart in die neue Infor...
Big Data Analytics Forum 2015: Wie gelingt der Schnellstart in die neue Infor...Big Data Analytics Forum 2015: Wie gelingt der Schnellstart in die neue Infor...
Big Data Analytics Forum 2015: Wie gelingt der Schnellstart in die neue Infor...
 
Die Zukunft des Wissensmanagements
Die Zukunft des WissensmanagementsDie Zukunft des Wissensmanagements
Die Zukunft des Wissensmanagements
 
Digital Data Insights 2018
Digital Data Insights 2018Digital Data Insights 2018
Digital Data Insights 2018
 
Big data mc_05_2014_long
Big data mc_05_2014_longBig data mc_05_2014_long
Big data mc_05_2014_long
 
BARC Was Datenmanagement Messbar Dazu Beitragen Kann
BARC Was Datenmanagement Messbar Dazu Beitragen KannBARC Was Datenmanagement Messbar Dazu Beitragen Kann
BARC Was Datenmanagement Messbar Dazu Beitragen Kann
 
DXC Technology - THRIVE Blog: Pay-Per-Use
DXC Technology - THRIVE Blog: Pay-Per-UseDXC Technology - THRIVE Blog: Pay-Per-Use
DXC Technology - THRIVE Blog: Pay-Per-Use
 

Big Data und Business Intelligence

  • 1. White Paper saracus Big Data und Business Intelligence
  • 2. saracus consulting GmbH Hafenweg 46 D-48155 Münster Fon. +49 251 98721 0 Fax. +49 251 98721 26 saracus consulting AG Täfernstrasse 4 CH-5405 Baden-Dättwil Fon. +41 56 483 02 20 Fax. +41 56 483 02 21 saracus consulting DOO Vizantijski Bulevar 78 SRB-18000 Nis BigDataund BusinessIntelligence www.saracus.com Seite 2 Big Data ist aktuell auf jeder Agenda im IT-Bereich zu finden und jeder Anbieter gibt seinem Produktportfolio diese Prägung. Eine genaue Definition existiert noch nicht, bisweilen findet eine Abgrenzung des Begriffs über Kriterien wie „Volume, Variety und Velocity“ Anwendung, also der Eigenschaft eines Anwendungssystems große Datenmengen mit beliebiger Datenstrukturkomplexität in Echtzeit zu verarbeiten. Damit fällt es mitunter leicht, eine Lösung im Bereich Big Data zu positionieren. Bis heute gibt es aber nur rudimentäre Aussagen über konkrete Einsatzszenarien und Erfahrungswerte für den Einsatz von Big Data Technologien und Kosten-/Nutzenanalysen sind eher theoretischer Natur. Damit stellt sich die Frage, ob Big Data eher als Nischenthema oder strategische Investition anzusehen ist. Von besonderem Interesse ist dabei das Potenzial von Big Data, Unternehmensprozesse zu optimieren, sowohl rein operative Prozesse wie auch im dispositiven Bereich, in dem sich Business Intelligence (BI) Konzepte über Jahre etabliert haben. Das Zusammenspiel von Big Data und Business Intelligence ist ein sehr junges Entwicklungsfeld mit hoher Ausprägungsvielfalt, in dem aktuell die Weichen für zukünftige Informationsarchitekturen gestellt werden. Dieser Artikel beschreibt den Status Quo des Themenbereichs Big Data und seine Beziehung zum Business Intelligence. Big Data – Bedeutung und Einordnung Big Data ist eine Thema, welches im Kontext von diversen IT-Trends zum Hype-Thema gewachsen ist und daher nicht isoliert für sich betrachtet werden kann. Unter dem Einfluss immer stärker vernetzter Anwendungen mit neuen Endgeräten produzieren wir mittlerweile immense Datenmengen, sowohl im geschäftlichen wie auch im privaten Bereich, in dem über soziale Netzwerke, Blogs und Web Shops ganz neue Informationsarten im Bereich Social Media das tägliche Leben prägen. IT-Anbieter haben diese Trends aufgegriffen und bieten sowohl geeignete Architektur- und Betreibermodelle, zum Beispiel in Form einer Cloud, wie auch neue Verarbeitungstechnologien, wie beispielsweise die Nutzung von NoSQL-Datenbanken an. Big Data ist dabei eine Komponente dieser IT-Entwicklungen und wird häufig abstrakt über seine Funktionalität abgegrenzt: „Big Data bietet Methoden und Technologien für das Erfassen, Speichern und Analysieren poly-strukturierter Daten genau dort, wo klassische Informationssysteme heute an ihre Grenzen stoßen.“ Bricht man diese abstrakten Kriterien auf konkrete Eigenschaften runter, lassen sich die Anwendungsfelder von Big Data wie folgt charakterisieren: • Es handelt sich um große Datenmengen (maschinenerzeugt oder immenser Nutzerkreis als Daten-Produzent)  Volumen der Analytik • Es geht vorwiegend um schnelle Auswertungen und Analytik (Recommendations, Werbung, Missbrauchserkennung)  Hohe Geschwindigkeit / Performance der Analytik • Das Ergebnis der schnellen Analytik greift in die operativen Prozesse ein (Handy- oder Kreditkarte sperren, Transaktionen canceln, „on the fly“ individuelle Werbung)  Operationalisierung der Analytik • Die Analytik muss zu einem hohen Anteil Vorhersagemodelle mit einbeziehen (Verhaltensmuster, Missbrauchsmuster)  Starke(r) Ausrichtung/Einbezug der Analytik auf „Vorhersagemodelle“ • Neue Datenquellen und –systeme greifen sehr stark ein (Soziale Netzwerke, Sensorik, Scanner) und bieten unterschiedlichste Strukturen  Variabilität der Datenstrukturen • Unsicherheit über den „nutzbaren“ Teil des Datenangebotes erfordert eine intelligente Filterung der Daten (Blogs, Kommentare)  Teilweise Filternotwendigkeit in der Analytik • Unsicherheit über den „wahren“ Inhalt des Datenangebotes erfordert eine intelligente Bewertung der Daten (Bewertungen in Online-Shops)  Teilweise Bewertungsnotwendigkeit in der Analytik • Daten werden zu jeder Zeit aktualisiert  Online-Analytik notwendig (im Sinne von Real time-Auswertungen) • Datenschutz und –sicherheit spielen eine große Rolle (Gesundheitswesen, Vorratshaltung von Transaktionsdaten)  Datenschutz- und –sicherheitsaspekte in der Analytik Wie zu erkennen ist, sind die Charakteristika keine grundsätzlich neuen Anforderungen oder Entwicklungen. Viele Aspekte wurden in der Vergangenheit bereits adressiert, wie etwa im Real time-Kundenprofiling von CRM-Systemen. Das wirklich neue an der Big Data Entwicklung ist die technologische Möglichkeit, neue Informationsarten in die Unternehmensprozesse einzubinden, deren geschäftliches Potenzial heute noch gar nicht abgeschätzt werden kann.
  • 3. BigDataund BusinessIntelligence www.saracus.com Seite 3 Konkrete Anwendungsfelder von Big Data Die Anwendungsfelder erstrecken sich über alle Branchen und Unternehmensprozesse. Einige Beispiele sind: • Versorgung, Logistik und Produktion RFID-Sensoren, Handscanner und GPS im Transport ermöglichen Routen- und Produktionsstrassenoptimierung, Kostensenkung und operative Effektivität. • Online Services und Web Analysen Internet-basierte Firmen nutzen Big Data zur Ableitung von Werbungspositionierungen, Kundenprofiling und Kapazitätsplanung sowie Clickstream- und Segment-Analysen. • Finanzdienstleistung Transaktionsanalysen unterstützen Missbrauchsanalysen und dienen als Grundlage für Handelsoptimierungen. Weiterhin werden neue regulatorische Anforderungen an die Datenhaltung unterstützt. • Energie und Versorgung Datenstreams von elektronischen Sensoren können zu Überwachungszwecken, für Verbrauchsanalysen oder Frühwarnsysteme in der Stromversorgung oder sonstigen Pipelines genutzt werden. • Medien und Telekommunikation Streaming Media, Smartphones, Tablets, Web-Verhalten und Text-Nachrichten werden mittlerweile immer & überall genutzt/generiert und bergen einen noch unbeschreibbaren Fundus an Wissen über Nutzer, deren Verhalten und Vorlieben. • Gesundheitswesen und Lebensumstände Elektronisch-medizinische Daten dienen zur Analyse von Diagnose- und Therapiemöglichkeiten, klinischen Studien sowie Verhaltensmuster und bieten Verbesserungspotenzial sowohl für Patienten wie auch das öffentliche und politische Gesundheitsmanagement. • Handel und Endverbraucher Transaktionsdaten liefern Muster zum Kundenverhalten und zur Markenloyalität sowie ein Stimmungsbarometer im Zusammenhang mit Daten aus sozialen Netzwerken, Blogs etc.. Social Media Analysen / Stimmungsbarometer Klassische BI Text-Mining Video- Analysen Verhaltensbasiertes und ereignisgesteuertes Marketing Missbrauchserkennung inkl. Social Media in Finanzdienstleistung und Telekommunikation Preispolitik und Aktionsmanagement im Handel Gesundheits- management Kapazitäts-/ Routen- planung Telemetrieanalytik & Verhaltens- modelle im operat. Betrieb Blog- & eShop Analysen/ Stimmungs- barometer Datenstrukturkomplexität Strukturiert UnstrukturiertPoly-strukturiert VerarbeitungsgeschwindigkeitRealtimeBatch Quelle: In Anlehnung an SAS/IDC „Big Data Analytics: Future Architectures, Skills and Roadmaps for the CIO”
  • 4. BigDataund BusinessIntelligence www.saracus.com Seite 4 Die Treiber von Big Data An den konkreten Anwendungsfeldern im vorherigen Kapitel lassen sich schon einige Treiber von Big Data erkennen. Unser Verhalten im Umgang mit dem Internet, d.h. Web Shopping, Blogging und die Nutzung sozialer Netzwerke hat immer stärkeren Einfluss auf unser Konsumverhalten und muss sich demnach in den operativen und dispositiven Unternehmensprozessen am Markt wiederspiegeln. Dieser hat eine Transparenz und Geschwindigkeit erreicht, die Unternehmen nur noch unter Einbezug sämtlicher Informationskanäle und –arten erfolgreich nutzen können. Budgetfreundliche Infrastrukturen gewinnen aufgrund des immerwährenden Kostendrucks zunehmend an Bedeutung. „Infrastructure as a Service“ bietet hier neue Architektur- und Betreibermodelle in einer Cloud und kann Hard- und Software-Ressourcen „on demand“ bereitstellen. Aber auch für die unternehmensinterne Infrastruktur forcieren sich Entwicklungen hin zu günstigen Commodity-Servern mit einer verteilten Daten- und Anwendungsstruktur. Für die Verarbeitung und Speicherung großer Datenmengen auf derartigen Systemen werden altbekannte Ansätze neu inszeniert und vielfach durch die Open-Source-Gemeinde weiterentwickelt. Hierzu gehören unter anderem verteilte Dateisysteme wie Hadoop oder NoSQL-Datenbanken. Dass dieses Vorgehen durchaus vielversprechend ist, zeigen alleine schon die vielfachen „kommerziellen Distributionen“, welche auf diesen neuen Technologien basieren. Zusätzliche Dynamik gewinnt Big Data auch durch die Erkenntnis, dass mit diesen neuen Technologien eine weitere Operationalisierung der klassischen BI machbar scheint. „Business-Entscheidungen in Echtzeit“ auf Basis von Standardanwendungen und –modellen und nicht mehr aufgrund von langwierigen und schwer nachvollziehbaren Berichtsgenerierungen oder proprietärer Spezialsoftware lautet die Devise; neue Rollen und Organisationsformen dazu werden am Markt schon gehandelt. Der „Data Scientist“ beispielsweise sichert einen nahtlosen Übergang zwischen der operativen und dispositiven Welt durch standardisierte Modellierung und Anwendungsnutzung aus technischer und fachlicher Sicht. Die Konzepte hinter Big Data, Methoden und Instrumente Die Konzepte lassen sich aus dem Einsatzzweck „Verarbeitung poly-strukturierter Datenmassen auf kostengünstigen Infrastrukturen“ und daraus abgeleiteter Big Data Marktsegmente strukturieren. Hardware & Operating System Distributionen Daten Management Komponenten Analytik und Visualisierung Services • Speicher • Server • Netzwerk • Hadoop community Distributionen • Hadoop Enterprise Distributionen • Non-Hadoop Big Data Frameworks • NoSQl Datenbanken • Dateninte- gration / ETL • Datenqualität und Governance • Analytische Entwicklungs- plattformen • Erweiterte analytische Anwendungen • Daten- visualisierungs werkzeuge • Business Intelligence Anwendungen • Beratung • Training • Installation • Wartung • Hosting (IaaS) z.B. Dell, HP, IBM, Cisco z.B. Cloudera, IBM, MapR, Microsoft z.B. DataStax mit Cassandra, CouchDB, MongoDB IBM, Informatica, Syncsort z.B. Karmashere, Datameer, SAS, Tableau, Revolut- ion Analytics, MicroStategy z.B. Amazon Web Services, Cloudera, saracus consulting MPP, spaltenbasierte DWH appliances & In-Memory-Techniken, z.B. EMC Greenplum, HP Vertica, Teradata Aster Data, IBM Netezza, SAP, Microsoft, Kognitio Quelle: In Anlehnung an Jeff Kelly @ Wikibon, http://wikibon.org/blog/navigating-the-big-data-vendor-landscape/
  • 5. BigDataund BusinessIntelligence www.saracus.com Seite 5 Hardware & Operating System Dem Ziel der budgetfreundlichen Infrastruktur folgend setzt Big Data auf eine massiv parallele Architektur basierend auf Commodity Servern. Diese Architektur bietet die Voraussetzung für ein wachsendes System (scale out) mit annähernd linearer Skalierbarkeit und gleichzeitiger Ausfalltoleranz. Die Systeme sind überwiegend Unix-basiert. Distributionen Um die parallele Systemarchitektur ausschöpfen zu können, wird ein verteiltes Dateisystem mit entsprechenden Verteilungs- und Zugriffsmechanismen benötigt. Hier hat sich der MapReduce-Ansatz stark verbreitet, der Prozesse in disjunkte Teilprozesse splittet, diese parallel und verteilt ausführt (Map-Phase) und in einem weiteren Schritt die Zwischenergebnisse zusammenführt (Reduce-Phase). Das MapReduce-Framework übernimmt dabei die automatische Parallelisierung und Verteilung der Teilprozesse, realisiert Fehlertoleranzen bei Ausfall von Hard- oder Software, steuert das I/O-Scheduling und stellt Status- und Überwachungsparameter bereit. Der Entwickler muss „nur“ die Map- und Reduce-Funktion definieren. Inzwischen existieren diverse MapReduce-Frameworks (Google, Hadoop, Twister, etc.) in verschiedenen Programmiersprachen. Das bekannteste und verbreitetste ist Hadoop, welches sich mittlerweile zum Quasi-Standard entwickelt hat und in den meisten Distributionen Verwendung findet. Das Standard Basissystem Hadoop ist „Open Source für Commodity Server“ und verfügt neben dem verteilten Dateisystem (HDFS) über weitere Komponenten, zum Beispiel zur Datenhaltung oder Prozessausführung. Neben dieser Community-Edition existieren kommerzielle Distributionen, die neben professionellem Support auch i.d.R. weitere Systemmanagement-Komponenten bereitstellen. Weiterhin gibt es z.B. mit MapR auch andere Implementierungen des MapReduce-Ansatzes. Datenmanagement Komponenten Für die Datenspeicherung haben sich sogenannte NoSQL Datenbanken („not only SQL“) etabliert. Ihren Ursprung haben sie bei Internet-basierten Unternehmen (Goolge, Facebook, Amazon, etc), die ihre Anforderungen nicht mit klassischen relationalen Datenbanken abdecken konnten und somit in Eigenregie anforderungsgerechte Datenhaltungssysteme entwickelten. Im Gegensatz zum relationalen Ansatz steht hierbei nicht die Transaktionssicherheit (ACID) im Vordergrund, sondern eine hohe Performance, flexible Datenstrukturen und – typen sowie hohe Verteilung und Verfügbarkeit. In Anlehnung an das CAP-Theorem, welches besagt, dass Datenspeichersysteme nicht gleichzeitig Verfügbarkeit, Konsistenz und Partitionstoleranz sicherstellen können, sondern nur zwei der drei Kriterien genügen, positionieren sich NoSQL Datenbanken im Bereich Partitionstoleranz und wahlweise Verfügbarkeit oder Konsistenz. Klassische relationale Daten- banken hingegen haben als ausgewiesene Eigenschaft stets volle Datenkonsistenz für alle Nutzer des Systems. Man spricht in diesem Zusammenhang bei NoSQL Datenbanken auch von „entspannter Konsistenz“. Die Grundprinzipien von NoSQL Datenbanken sind : • Key / Value – Speicherform • Lauffähig verteilt auf mehreren Rechnern (Cluster) • Partitionen und asynchrone Replikation verteilt über die Rechner • Entspannte Konsistenz Das CAP-Theorem von Speichersystemen (Consistency – Availability – Partition Tolerance) Availability Verfügbarkeit, d.h. alle Nutzer können stets lesen und schreiben Partition Tolerance Partitionstoleranz, d.h. das System funktioniert trotz Netzwerk- Partitionierung weiter Consistency Konsistenz, d.h. alle Nutzer haben stets die gleiche Sicht auf die Daten • Azur Storage, MongoDB, • BuigTable / HBase • Dynamo/S3 • CouchDB • Cassandra • Relationale, parallele DBMS Quelle: In Anlehnung an guide.couchdb.org
  • 6. BigDataund BusinessIntelligence www.saracus.com Aufbauend auf den Grundprinzipien existieren verschiedene Ausprägungen von NoSQL Datenbanken: Key / Value Stores Speichern der Key/Value-Paare im Speicher oder in Datei, wobei die Datenbank weder Form noch Inhalt des Wertes kennt und über diesen auch nicht direkt abgefragt werden kann. Der Wert wird als binäres Objekt gespeichert. Vertreter dieser Art sind u.a. Amazon Dynamo oder MemcacheDB. Document Store Analog zu den Key / Value Stores, jedoch ist der Wert ein strukturiertes Dokument, das von der DB interpretiert werden kann und somit Abfragen über den Wert möglich sind. Datenbanken dieser Art haben häufig eine SQL- ähnliche Abfragesprache. Beispiele sind MongoDB, CouchDB oder Riak. Big Tables (auch column database oder wide column store genannt) Big Tables bestehen aus Spaltenfamilien, die wiederum aus Spalten oder Superspalten bestehen. Superspalten können dabei beliebige weitere Spalten beinhalten. Dieses Datenmodell entspricht somit einem verteilten, multidimensionalen, geordneten Würfel mit i.d.R. hoher Sparsity. Vertreter sind u.a. Google BigTable, Cassandra, Hbase, Voldemort oder Azure Tables. Graphendatenbanken Hierbei besteht das Datenmodell aus Graphen, Knoten, Kanten und Eigenschaften. Sie werden physisch als Key / Value-, BigTable oder einer Kombination aus beiden Methoden implementiert. Ihre besondere Stärke liegt in der Abbildung von Beziehungen. Beispiele sind AllegroGraph, Neo4j oder DEX. Der Modellierungsansatz relational versus NoSQL Die Modellierung von NoSQL Datenbanken folgt einer anderen Philosophie als der klassischen (relationalen oder multidimensionalen) Modellierung. In der klassischen Modellierung leitet sich das Datenmodell in einem ersten Schritt aus der relationalen und redundanzfreien Abbildung der fachlichen Anforderungen mit seinen Objekten und Beziehungen untereinander ab. In einem zweiten Schritt werden dann die möglichen und wahrscheinlichen Zugriffspfade der Nutzer durch weitere Hilfskonstrukte wie Views, Aggregationstabellen, partielle Replikationsdatenbestände, Indexierung oder Partitionierung möglichst in Richtung Performance optimiert. Dieses Verfahren sichert die größtmögliche Flexibilität für Ad hoc Analytik. Für eine NoSQL Datenbank ist der Zugriffspfad, d.h. die Abfrage entscheidend. Vereinfacht ausgedrückt, wird für jede Abfrage eine eigene „Tabelle“ erstellt. Redundanzen werden hierbei in Kauf genommen, Speicheraspekte durch Kompressionsprozesse egalisiert. Da NoSQL Datenbanken flexibel von der Datenstruktur sind, können Strukturänderungen zu jedem Zeitpunkt einfach umgesetzt werden. SQL – like Key / Value - like Produkt Datum Anzahl Lieferant Apfel 29.12.2011 60 Ballante Banane - - - Birne 02.02.2012 66 Polente Möhre - - - Zucchini 03.11.2011 52 Bollente Key Value Apfel Datum 29.12.2011 Apfel Anzahl 60 Apfel Lieferant Ballante Birne Datum 02.02.2012 : : Seite 6
  • 7. BigDataund BusinessIntelligence www.saracus.com Seite 7 Datenintegration / ETL Im Bereich der Datenintegration müssen die Datenverarbeitungsprozesse entweder selbst implementiert werden, was einer normalen Programmieraufgabe entspricht oder es werden ETL-Tools eingesetzt. Die führenden ETL- Werkzeuge verfügen bereits über Konnektoren sowohl für den Zugriff auf Hadoop-Cluster als auch auf NoSQL Datenbanken. Aus Sicht des ETL-Werkzeug-Anwenders handelt es sich „nur“ um neue Quellen oder Ziele. Analytik und Visualisierung Für die Analytik im Bereich Big Data gibt es die unterschiedlichsten Varianten. Allen gemeinsam ist nur die Art der Datenquelle (HDFS) und das Ziel (BI-Tool oder weitere analytische Anwendung wie etwa Data Mining Werkzeug). Die grundlegendste Variante ist Nutzung des Hadoop Ökosystems, bei dem Entwickler jede Form des Datenzugriffs, der Datenverarbeitung und –visualisierung programmieren. Dies kann zwar alle Möglichkeiten der NoSQl Datenbank ausnutzen, ist aber nur für versierte Entwickler machbar. Die Nutzung herstellerspezifischer Visualisierungswerkzeuge oder BI-Tools ist zwar grundsätzlich über ODBC oder JDBC Schnittstellen möglich, jedoch ist hierbei zu beachten, dass (noch) nicht der gesamte Sprachumfang von SQL unterstützt wird. Die generierten SQL-Statements können daher unter Umständen nicht abgesetzt werden und müssen manuell angepasst werden. Eine weitere Variante besteht in der Nutzung einer Zwischenschicht, entweder als Wrapper (reine Konnektion) oder als Accelerator (Nutzung speicherbasierter Zugriffswerkzeuge). Folgende Grafiken verdeutlichen diese Methoden am Beispiel von LucidDB (Wrapper) und MicroStrategy/Kognitio (Accelerator). Services WRAPPER JDBC BI-Tool Quelle: In Anlehnung an http://www.nicholasgoodman.com/bt/blog/category/dynamobi/ Quelle: Hadoop architecture, posted in http://anonymousbi.wordpress.com/category/ nosql/
  • 8. BigDataund BusinessIntelligence www.saracus.com Seite 8 Strategisches Ziel ist eine nahtlose Integration der unterschiedlichen Techniken und damit größtmögliche Transparenz in den BI-Tools sowie eine nahtlose Integration der darunter liegenden Datenschichten, wie in folgender Abbildung dargestellt. Hierbei sollten die Datenbestände Real time miteinander und mit den operativen Beständen verknüpft sein, um die größtmögliche Synergie aus beiden Welten zu generieren. DWH BI-Tool nativeODBC/ JDBC/ native ETL-Tool Quelle: In Anlehnung an http://nosql.mypopescu.com/post/681603154/ presentation-hive-a-petabyte-scale-data-warehouse Quelle: http://kognitio.blogspot.de/
  • 9. BigDataund BusinessIntelligence www.saracus.com Seite 9 Big Data und Business Intelligence Big Data und Business Intelligence werden zusammenwachsen. Der klassische BI-Stack wird in seiner Grundstruktur erhalten bleiben und um neue Technologien in allen Schichten ergänzt werden, bis zu den Quellsystemen. Unternehmen, welche bereits Big Data Technologien in ihren operativen Prozessen nutzen, werden ihre analytischen Fähigkeiten auf diese Technologien konzentrieren (vor allem Unternehmen, deren Infrastruktur bzw. Geschäftsmodell Web-getrieben ist wie z.B. Facebook, Netflix, Web-Shops). Unternehmen mit klassischer BI und klassischen ERP-Systemen erschließen mit Big Data neue Informationsquellen und weiten ihre analytischen Funktionalitäten partiell aus. Die Abgrenzung bzw. der Übergang zwischen Big Data- und klassischen BI-Strukturen wird fließend sein und sich an der operativen bzw. dispositiven Ausrichtung der Anwendung orientieren. Folgende Grafik zeigt die saracus-Referenzarchitektur einer zukünftigen integrierten Big Data Business Intelligence Plattform. POS Social media Interaktions- agentInteraktions- agent Online - Produktionsworkflow - Batch/Dialog Operative- / ERP- / CRM- / POS- / Produktions-DB (ACID) Verteiltes Dateisystem z.B. Hadoop Data Mining Externe Quellen Interaktions- agent NoSQL DB Service Engine Nutzer / Kunde NoSQL Warehouse Klassisches Warehouse NoSQL / Appliance Rel.Data Mart Analyse- Verbund BI- / Application- Server BI- Anwender (Konsument-Power User) Data Science Operations REAL- TIME BATCH Ad hocReportingDiscovery Quelle: saracus Big Data Business Intelligence Referenzarchitektur
  • 10. Technologie BigDataund BusinessIntelligence www.saracus.com Seite 10 • Strategie- & Architektur- beratung zu Big Data BI • Programmierung / Customizing Hadoop- basierter Systeme • Integration BI-Tools und • Customizing von ETL- Tools in Big Data Umgebungen • Anwendung v.Appliances • Werkzeugevaluation Warum saracus consulting? Die folgenden Faktoren sprechen für die Wahl der saracus consulting als Beratungs- und Integrationspartner: • Seit 1991 zu 100% fokussiert auf DWH, BI, CPM und aCRM • Mehrjährige Erfahrungen mit Big-Data-Technologien • Spezifische Vorgehensmethodik • Große Erfahrung mit wichtigen Technologien • Kombination von Business- und IT-Know-how • Umfangreiche Anzahl an ausgebildeten und erfahrenen Beratern, um auch große Projekte zeitgerecht fertig zu stellen • Full Service von der Analyse, Konzeption über Systemintegration bis zum Betrieb Der fließende Übergang (d.h. die Integration) von Big Data Analytics und klassischer BI kann und wird auf mehreren Schichten erfolgen. Der einfachste Weg mit der geringsten Integrationstiefe ist die Integration auf der ETL-Schicht. Dabei werden Daten über den ETL-Server ausgetauscht und auf separaten Strängen den Anwendungen zur Verfügung gestellt. Diese „Datenintegration“ erinnert sehr stark an die „EAI-Thematik“ und wird trotz erheblicher Daten- und Prozessredundanzen aufgrund geringer Komplexität vielfach gewählt werden. Er kann als einfacher Einstieg in Big Data Analytics angesehen werden. Klassische BI Server werden zunehmend verteilte Systeme als Quellen konnektieren können und nicht zuletzt werden die klassischen Systeme step by step durch Big Data Technologien substituiert werden, sei es durch originäre Big Data Technologien oder durch proprietäre Appliances. In jedem Fall wachsen die Datenbestände zusammen und der Zugriff erfolgt nur noch durch ein Werkzeug (mit Ausnahme spezieller Funktionalitäten wie Data Mining, für die es auch zukünftig dedizierte Anwendungen geben wird). Auf der Datenintegrationsschicht haben die ETL-Werkzeuge diese Verschmelzung bereits umgesetzt, auf Datenhaltungs- und analytischer Schicht ist sie initiiert. Zukünftig werden sich die BI-Systeme in den Zugriffsmöglichkeiten auf Big Data Datenbestände beziehungsweise NoSQl-Datenbanken abgrenzen. Klassische relationale Systeme auf analytischer Ebene (Data Marts) bekommen zunehmend Konkurrenz durch spezialisierte, vielfach in-memory- orientierte Datenbanken mit paralleler Verarbeitung. Das Grundprinzip der multidimensionalen Planung und Analyse wird aber bestehen bleiben und durch zusätzliche Analysemodelle (in Richtung Filterung und Mining), neue Visualisierungsmöglichkeiten (Reduktion für neue Präsentationsgeräte) und Nutzung zusätzlicher Endgeräte (im Wesentlichen Mobile/Tablet) erweitert werden. Neue Informationsarten (Links, Follower, unstrukturierte Texte & Dokumente) werden neue analytische Funktionalitäten generieren, z.B. Pfad-Analysen, Reichweitenanalysen oder intelligentes Text-Retrieval. Durch den Einsatz neuer Datenspeicherungstechniken werden sich klassische Methoden der Modellierung ändern. Aus organisatorischer Sicht wird der BI-Bereich in Unternehmen keine Reformation erleben, aber die Aufgabeninhalte der Business Analysten werden sich in Richtung analytische Modellierung verlagern, um die steigende Selektions- und Bewertungsnotwendigkeit sowie Vorhersagemodelle abbilden zu können. Häufig findet man für diese Rolle die Bezeichnung „Data Scientist“. Was Big Data bisher erreicht hat Big Data ist bislang eine bewiesene Lösung einer geeigneten Infrastruktur für die Speicherung und Verarbeitung poly-strukturierter Massendaten auf einem verteilten und fehlertoleranten System, konnte bislang aber noch nicht nahtlos die Lücken zum Business Intelligence schließen, weder mit eigenen Bordmitteln, noch mithilfe der klassischen BI-Tools. Es fehlt noch an der Abfragemöglichkeit komplexer Queries, der nahtlosen Integration in klassische BI-Tools und Aggregationsfunktionalitäten.