Seit einigen Monaten wird „Big Data“ intensiv aber auch kontrovers diskutiert. Stellt dieser Ansatz die bestehende relationale Datenbankdominanz in Frage, zumindest für ausgewählte analytische Problemstellungen? Dieser Artikel zeigt nach einem einführenden Überblick anhand von Anwendungsfällen auf, wo die geschäftlichen Mehrwerte von Big Data Projekten liegen und wie diese neuen Erkenntnisse in die bestehenden Data Warehouse und Business Intelligence Projekte integriert werden können.
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
DOAG News 2012 - Analytische Mehrwerte mit Big Data
1. DataWarehouse&Bl
SeiteinigenMonatenwird,,BigData"intensiVaberauchkontroversdiskutiert.DieserArtikelzeigtnacheinemern-
führendenÜberblickanhandvonAnwendungsfällenauf,wodiegeschäftlichenMehrwertevonBig-Data-Pro;ekt
liecenrrndwipdieseneuenErkenntnisseindiebestehendenData-Warehouse-undBusiness-lntellinence-Pr
inteqriertwerdenkönnen.
2. Filtern dieserDaten aufgrund defi-
nierter interessanterMerkmale
3. SelektiveWeiterverarbeitungbezie-
hungsweiseÜbernahme der inter-
essantenInformationen in die vor-
handenen internen IT-Systeme
4. Die verarbeitetenDaten ausdem 1.
Schritt wegwerfenund den Prozess
fortsetzen
Um diese unstrukturierten, schema-
Iosen Daten überhaupt sammeln zu
können, wurden von Google und an-
deren Internet-Pionieren NoSQL-Da-
tenbanken (wie Cassandra)entwickelt
und mit Hadoop sowohl ein verteiltes
Dateisystem(HDFS)als auch ein Ent-
wicklungs-Framework(MapReduce)be-
reitgestellt (siehe Positionierung der
OracleBig Data Appliance [2]). Abbil-
dung 1 stellt die maßgeblichen Kom-
ponenten der NoSQL- und SQL-Welt
gegenüber.
Zunächst soll eine mögliche ge-
meinsameArchitektur betrachtet wer-
den, um diese Technologien parallel
oder auch gemeinsam zu betreiben,
bevor aus Anwendungssicht die Frage
geklärt wird, was diesespragmatische
Vorgehensmodellkonkrei fiir verschie-
deneAnwendungsfällebedeutet.
ZusammenspielBigData/Data
Walehouse
Bei einer klassischenKonzeption eines
Data-Warehouseund Business-Intelli-
gence-Systems,leicht modifiziert nach
[3], bleiben durch Big Data die beste-
henden Data-Warehouse-und Busi-
ness-lntelligence-Prozessezunächstun-
angetastet.Die neuartigen Datenquel-
len erweiternaberzum einen den ana-
lyserelevanteDatenraum, was Erkennt-
nisgewinn verspricht, zum anderen
treten an die Seitevon klassischenBI-Abbil dung 7: Gegenüberstellung derKomponenten
46 |www.doag.org
Analytische Mehrwerte von Big Data
Oliver Rönigerund Harald Erb,ORACLEDeutschlandB.V.& Co. KG
Der McKinsey-Report ,,Big Data" be-
tont die enorme gesellschaftlicheund
geschäftliche Bedeutung,die sich aus
den explodierenden Datenmengen in
nahezu allen Branchen ergibt [1]. Um
tatsächlich von ,,Big Data" zu spre-
chen, sind drei Merkmale zu erftillen
(,,3vs"):
. Volume
RiesigeDatenmengen(xx Terabyte),
die sich bislang nicht für Data-
Warehouse-Analysen erschließen
lassen,weil deren relevante Infor-
mationsdichte einfach zu gering ist,
als das sich deren Speicherungund
Verarbeitung aus wirtschaftlicher
Sicht lohnt.
. Velocity
Die hektischezeitliche Frequenz,in
der Daten in operativen Geschäfts-
Prozessen entstehen. Mehrwerte
werden sowohl aufgrund der sehr
hohen Granularität der Daten als
auch in deren umgehender Verar-
beitung und Erkenntnisgewinnung
in Echtzeitgesehen.
. Variety
Die Vielfalt der zusätzlichen (un-
strukturierten) Datenformate, die
sich jenseits der üblichen wohl-
strukturierten Transaktionsdatenaus
Social-Media-Daten, Maschine-zu-
Maschine-Kommunikationsdaten,
Sensordaten,Webserver-Logdateien
etc.ergeben.
Diese Daten sind inhaltlich neu, sie
sind unstrukturiert, es sind unsagbar
viele - die wirklich interessantenIn-
formationen darin sind hingegen nur
äußerst dünn gesät.Insofern liegt es
nahe, sich an das folgende einfache
Vorgehensmodellzu halten:
1. GezieltesSammeln der neuartigen
Massendaten aus den relevanten
Datenquellen
! u"*,* i
;::"::,:"J
ffi
2. Abbildung2: VomTwitter-FeedzumBig-Data-ZugriffviaExternalTableim Data Warehouse
Abbildung3: BeispieleinesEndeca-Dashboards
Werkzeugen zusätzliche Suchfunkti-
onalitäten, die den unstrukturierten,
textuellen Informationen besser ge-
recht werden. Es handelt sich ieweils
um Ergänzungen zum Bestehenden,
also eher Evolution als Revolution.
Eine technische Kernfragelautet, wie
die unstrukturierten Massendatenaus
Big Data mit derfr Data Warehousever-
bunden werden können. Hierzu gibt
es seitensOracle mehrere technische
Möglichkeiten:
. OracleLoaderfor Hadoop
Daten aus einem Hadoop-Cluster
werden direkt in das Oracle Data
Warehousegeladen
. Oracle Direct Connectorfor Hadoop
HDFS
Direkter Zugriff auf das verteil-
DataWarehouseE Bl
te Filesystem ftir das Oracle Data
Warehouse
. Oracle Data Integrator (ODI) Appli-
cationAdapterpr Hadoop
Einbinden eines Hadoop-Jobsin ei-
nen ODl-Ladeprozess
Abbildung 2 zeigt beispielhaft anhand
von Twitter-Nachrichten zwei unter-
schiedliche Szenarien,wie sogenann-
aut Rohdaten
OracleDataWarehouse(Exadata)
External Table: HDFS_CAR_SENTIMENT
q;,i;i::, .;'1;i 16$ri,:ä#iiill 966;';;
Fod Fda 01{t-12 I 2
lnfiniBand
Fod F@6 0142-12 24 a
O6cle Dlrcct
Connoctorfor Fod Fj50 o1{t{2 50 3
Hadoop HDFS Loatis: hdfs_forum-€r_model.toc
t
gE!,tca ,
l'Bor{ BDFS_CÄR_SnI!I!CN!
ls,*"'
"f
I gut* cott".t I Roalüme odel
| (searctr I hi6tori6ch€
I UserLookup) I O.En
r+
Oracle Big Data Appliance
H D F S
.::itiü:f , I rti':i:1.{,1{ili&$t*!üi{i&i:
FodFo601-01-2012 I 2
FordF@@01-02-2012 24 I
FodF-1500141-2012 50 3
File: PART-R-0000
ii::1i
DOAGNews4-2012| 47
3. Originalsystem (2.8. Datenbank)
@
q ! E t o ä l
ä i sg ä äF d ' = 3 Q ; l
{ ö i ä F 6
e
ä'
o
Endeca Index
liledlkamentenb$chrelbung (Text)
Sinclair I June
I
E!!t
--
iletlormin
m,2o1o
Metformin was approvedfor use in the U.S.
for treatment of type 2 dlabotes in
December, 1994. lt ls sold under the
brand name Glucophage and is also
availablegenerically. Metfomin is appro/ed
for trsatnent wilh sulfonylureas, or with
insulin, or as monotherapy (by itself).
Glu@phage XR Extended Release täblets, a
once daily version of metformin,is available.
Als. metiorminis availäble...
Sulfonylursag
"."dtdtt-
.4
EF
DataWarehouse&Bl
Abbildung4: BeispieleinesFacetten-Datenmodells
te ,,Social-Media-Daten" in die Big-
Data-Infrastruktur einesUntemehmens
überfährt und auswertbar gemacht wer-
den können. SzenarioL steht dabei für
den individuellen Entwicklungsansatz,
bei dem die Akquisition der Rohdaten
über Twitter-Developer-APls (siehe
http://dev.twitter.com) und die Daten-
organisation über das Hadoop-MapRe-
duce-Entwicklungs-Framework (nicht
abgebildet) erfolgt. Alternativ lassen
sich heute auch schon Mehrwertdiens-
te (Szenario2) in Anspruch nehmen,
die per Auftrag TWitter-Datenabzüge
aufbereiten und anreichem, indem sie
unter anderem den Geo-Bezugherstel-
len, den Einfluss der Twitter-Beiträge
auf andere per ,,Klout Score" ermitteln
oder eine Sentiment-Analyse durch-
ftihren. Im Ergebnis werden die rele-
vanten Daten (in der Abbildung die
RealTime
.E(,
o
o
o*,
t!
o
Abbildung5: Big-Data-Anwendungsbereiche: OracleLösungsquadrant
48 | www.doag.org
4. permanenler
semistrukturierter
Datenstrom
SelektiveUbernahme
Ubergangin
Bestandssysteme Datamart/ Datenausschnift
RohdatenoderverdichteteDaten
TraditionelleanalytischeAnwendungen
Abbildung6:AnalytisclresGesamtszensrio
veredelten Twitter-Feeds)als Key-Va-
lue-Paarein Dateiform in einem Ha-
doop Distributed File System(HDFS)
zur weiteren Analyse bereitgestellt.
Nutzt man hierzu die Oracle-Big-Data-
Infrastruktur in Kombination mit ei-
nem Oracle-Data-Warehouse,eröffnet
sich dem Analysten ein eleganterWeg
des Datenzugriffs per External Tables
und SQL(sieheauch I4l).
Analysemöglichkeiten
Die Akquisition von Endecaerweitert
das bisherige Oracle-Business-lntelli-
gence-Analyse-Spektrum,indem die
textbasierteSucheunstrukturierter In-
formationen mit den typischen quan-
titativen Bl-Analysen kombiniert und
dem Benutzerintuitiv nutzbar präsen-
tiert wird. Die Verbindung quantita-
tiver und qualitativer Informationen
überschreitet die klassischeGrenze
von BusinessIntelligenceund kann
konzeptionell dem Knowledge Ma-
nagementzugeördnetwerden.DerSlo-
gan ,,No data left behind" drückt die-
sePhilosophietreffend aus.Erweiterte
Analyse-Funktionensind zum Beispiel
die unternehmensweiteSuche,die Prä-
sentationin Form von TagClouds,das
datengetriebenedynamische Filtern
von Merkmalen und die sogenannte
,,Facetten-Navigation",bei der die Su-
che und Auswahl von Attributen wie
auf einerWebseitefunktioniert [5].
Abbildung 3 zeigt plastisch Teile
dieser neuen funktionalen Möglich-
keiten. Es geht um die Analyse eines
Twitter-Streams zum Thema ,,Auto
Make and Model". In der Guided-Na-
vigation-Leiste links sieht man die
einbezogenenDatenquellen (iPhone-,
Android- und Blackberry-Nutzer)und
die weiteren gesetztenFilterkriterien
(,,FordFocus").Oben in der Metrik-
Leiste wird ausgewiesen,dass in 416
(von ca.350.000Interaktionen)zutref-
fende Nachrichten gefunden wurden
und sich400 (derca.132.500Benutzer)
zu diesemThema austauschen.In den
Tag-Cloudswerden besondershäufig
verwendete,unterschiedlichePkw-Mo-
delle und andereBegriffehervorgeho-
ben, wobei die Größe der Schrift zeigt,
auf welche Wörter die meisten Treffer
kommen. Die bereitserwähnten Mög-
lichkeiten zur Anreicherungvon Soci-
al-Media-Datendurch,,Klout Scores"
und Sentiment-Analysenhelfen dem
Analystenbei der Bewertungder Twit-
ter-Beiträge,etwa in Form zusätzlicher
Metriken oder weiterer Attribute für
die gefuhrte Suche im Datenbestand.
Schließlich finden sich unten weitere
Statistiken,die zusätzlichenkorrespon-
dierendenInhalt enthalten können.
Bevor es zur fachlichen Analyse
kommen kann, sind die Daten aufzu-
bereiten, gegebenenfallszu verknüp-
fen sowie anzureichern.Neben klassi-
schen ETl-Funktionen gibt es seitens
Endeca ein erweiterbares Content-
Acquisition-System(CAS) für die Da-
ten-Integration von Hunderten von
Dateitypen, Dokument-Repositories,
CMS-Systemen,Webinhalten und RSS-
Feeds.CAS kann sowohl Dateiserver
als auch Twitter, Facebook& Co. ana-
I
DOAGlVeyrs1-2012 49
5. DataWarehouseE Bl
lysieren.Jedesunstrukturierte Attribut
kann verarbeitetund um weitereInfor-
mationen angereichertwerden.Gängi-
geTechniken sind:
. Automatic Tagging
. Named Entity Extraction
. Sentiment Analysis
. Term Extraction
. GeospatialMatching
Die unstrukturierten Daten können
mit anderen Datensätzenüber einen
beliebigen Schlüsselmiteinander ver-
bunden werden. Natürlich können
auch strukturierte Daten mit diesen
unstrukturierten Daten im Rahmen
des ETl-Prozessesverknüpft sein. Da-
bei wird keine feste analysefokussier-
te Datenmodellierung betrieben - wie
im Data Warehousein Richtung Star-
oder Snowflake-Modell in Form von
fest verknüpften Tabellen üblich -,
sondern die Dimensionen werden alle
gleichberechtigtnebeneinanderin ein
Modell gelegt. In der Praxis existie-
ren Analyse-Modelle mit mehreren
Hundert Dimensionen. Aus fachlicher
Sicht eröffnen sich sounendliche Ana-
lyse-Möglichkeiten. Abbildung 4 ver-
anschaulicht die Idee deshochdimen-
sionalenFacetten-Datenmodells.
DiePraxis
Big-Data-Projekte sind kein Selbst-
zweck. Die neue Technik ist reizvoll,
aufgrund desnotwendigen Spezialwis-
sensund der sehr großen Datenmen-
gen (Hardware-Bedarf)aber durchaus
kostenintensiv. Daher ist es erforder-
lich, die fachlichen neuen Möglich-
keiten, die sich ausBig-Data-Analysen
ergebenkönnen, nüchtern zu bewer-
ten. Daskann nur jedesUnternehmen
selbstanhand seinerAnwendungsfälle
tun. In Anlehnung an [6] zeigt Abbil-
dung 5 eine Gegenüberstellungeiniger
Big-Data-Anwendungsbereicheund des
Oracle-Lösungsangebotszu Big Data
und DataWarehousing.
Unter wn w.doag.org/go/doagnews/
erb_tabellesind beispielhaft fünf aus-
gewählteUseCasesvorgestelltund ihre
Komplexität sowie deren Geschäfts-
nutzen bewertet.
Quellenverzeichnis
[1] McKinsey Global Institute: Big Data: The
next frontier for innovation, competi
tion, and productiviry Report, May 2011:
http: i /www.mckinsey. com/Insights/MGI/
Research/Technology_and_lnnovation/Big_
data_The_next_frontier_for_innovation
[2] Carsten Czarski,Big Data: Eine Einführung,
Oracle Dojo Nr. 2, München 2O72: http:ll
www.oracle. com/webfolder/technetwork/
de/community/dojo/index.html
[3| Cackett,D./Bond, A./Lancaster,K./Leiker,K.,
Enabling Pervasive BI through a Practi-
cal Data Warehouse Reference Architec-
ture, An Oracle White Paper,Februar2010:
http://www.oracle.com/us/solutions/data-
warehousing/058925.pdf
[4] Günther Stürner, Big Data - Hype und
Wirklichkeit, Vortrag auf dem Führung-
skräfte-Forum,,Ergebnis-und wirkungsori-
entierte Steuerung" des Behördenspiegels:
http ://www.fuehrungskraefte-f orum.de/?
page_id=1617
[5] Mark Rittman, Where Does Endeca Fit
with Oracle BI and DW?, 22. Februar2072,
http://www.rittmanmead. com I ZO12I 02I
oracle-endeca-week-where-does-endeca-fit-
with-oracle-bi-dw-and-epm/
[6] Ravi Kalakota, Big Data Analytics Use Cas-
es, 12. Dezember 2011: http://practicalana-
lltics.wordpress.com I 2O71,I 12I 12 lbig-data-
analytics-use-cases
[7] TU München, o.V., Neuer Krebsauslöserin
Pommes frites entdecku scinexx - Das Wis-
sensmagazin,19.August 2008, http://wn'w.g-
o.de/wissen-aktuell-8686-2008-08-19.html
[8] o.V.:Bei Twitter hat Obama im Wahlkampf
die Nase vorn, in Westdeutsche Allgemeine
Zeitung Online, 3. Januar 2012, http:ll
www.derwesten. de/wirtschaft/digital/bei-
twitter-hat-obama-im-wahlkampf-die-
nase-vorn-id6210915.html
[9] o.V.: Neue Umsatzsteuer soll Betrug vor-
beugen, in Frankfurter Allgemeine Zeitung
Online, 20. Oktober 2005: http://rvww.faz.
net/aktuell/wirtschaft/wirtschaftspolitik/
h aushalt- neu e-um satzsteu er-sol I-betrug-
vorbeugen-1282702.html
Oliver Röniger
oliver.roeniger@
oracle.com
Harald Erb
harald.erb@
oracle.com
Firmenmitglieder
DirkFleischmann,cubusBlSolutionsGmbH
WolfgangHack,dimensioInformaticsGmbH
VolkerOboda,DMySQLAGe.V
MartinBöddecker,mbSupportGmbH
HansHaselbeck,EMPIRIUSGmbH
UweSchreiber
WolfgangMichaelGirsch
ChristaWeckman
ThomasKrahn
MarcoStroech
WoltgangBossmann
ChristophMecker
CorinnaKerstan
GerhardSchaefet
MichaelTucek
RüdigerZiegler
ErikaKrüger
AndreasKoop
UlrichGerkmann-Baftels
ManfredDrozd
ChristophQuereser
AndreasRernhardt
MarkusVincon
Wir begrül3enunsereneuenMitglieder
PersönlicheMitglieder
NorbertKossok
DirkWemhöner
AlexandraStrauß
ThomasEwald-Nifkiffa
KevinBrych
joachimEngel
ThorltenGrebe
MartinBernemann
JosefRabacher
50 | www.doag.org