SlideShare ist ein Scribd-Unternehmen logo
1 von 7
Downloaden Sie, um offline zu lesen
DataWarehouse&Bl
SeiteinigenMonatenwird,,BigData"intensiVaberauchkontroversdiskutiert.DieserArtikelzeigtnacheinemern-
führendenÜberblickanhandvonAnwendungsfällenauf,wodiegeschäftlichenMehrwertevonBig-Data-Pro;ekt
liecenrrndwipdieseneuenErkenntnisseindiebestehendenData-Warehouse-undBusiness-lntellinence-Pr
inteqriertwerdenkönnen.
2. Filtern dieserDaten aufgrund defi-
nierter interessanterMerkmale
3. SelektiveWeiterverarbeitungbezie-
hungsweiseÜbernahme der inter-
essantenInformationen in die vor-
handenen internen IT-Systeme
4. Die verarbeitetenDaten ausdem 1.
Schritt wegwerfenund den Prozess
fortsetzen
Um diese unstrukturierten, schema-
Iosen Daten überhaupt sammeln zu
können, wurden von Google und an-
deren Internet-Pionieren NoSQL-Da-
tenbanken (wie Cassandra)entwickelt
und mit Hadoop sowohl ein verteiltes
Dateisystem(HDFS)als auch ein Ent-
wicklungs-Framework(MapReduce)be-
reitgestellt (siehe Positionierung der
OracleBig Data Appliance [2]). Abbil-
dung 1 stellt die maßgeblichen Kom-
ponenten der NoSQL- und SQL-Welt
gegenüber.
Zunächst soll eine mögliche ge-
meinsameArchitektur betrachtet wer-
den, um diese Technologien parallel
oder auch gemeinsam zu betreiben,
bevor aus Anwendungssicht die Frage
geklärt wird, was diesespragmatische
Vorgehensmodellkonkrei fiir verschie-
deneAnwendungsfällebedeutet.
ZusammenspielBigData/Data
Walehouse
Bei einer klassischenKonzeption eines
Data-Warehouseund Business-Intelli-
gence-Systems,leicht modifiziert nach
[3], bleiben durch Big Data die beste-
henden Data-Warehouse-und Busi-
ness-lntelligence-Prozessezunächstun-
angetastet.Die neuartigen Datenquel-
len erweiternaberzum einen den ana-
lyserelevanteDatenraum, was Erkennt-
nisgewinn verspricht, zum anderen
treten an die Seitevon klassischenBI-Abbil dung 7: Gegenüberstellung derKomponenten
46 |www.doag.org
Analytische Mehrwerte von Big Data
Oliver Rönigerund Harald Erb,ORACLEDeutschlandB.V.& Co. KG
Der McKinsey-Report ,,Big Data" be-
tont die enorme gesellschaftlicheund
geschäftliche Bedeutung,die sich aus
den explodierenden Datenmengen in
nahezu allen Branchen ergibt [1]. Um
tatsächlich von ,,Big Data" zu spre-
chen, sind drei Merkmale zu erftillen
(,,3vs"):
. Volume
RiesigeDatenmengen(xx Terabyte),
die sich bislang nicht für Data-
Warehouse-Analysen erschließen
lassen,weil deren relevante Infor-
mationsdichte einfach zu gering ist,
als das sich deren Speicherungund
Verarbeitung aus wirtschaftlicher
Sicht lohnt.
. Velocity
Die hektischezeitliche Frequenz,in
der Daten in operativen Geschäfts-
Prozessen entstehen. Mehrwerte
werden sowohl aufgrund der sehr
hohen Granularität der Daten als
auch in deren umgehender Verar-
beitung und Erkenntnisgewinnung
in Echtzeitgesehen.
. Variety
Die Vielfalt der zusätzlichen (un-
strukturierten) Datenformate, die
sich jenseits der üblichen wohl-
strukturierten Transaktionsdatenaus
Social-Media-Daten, Maschine-zu-
Maschine-Kommunikationsdaten,
Sensordaten,Webserver-Logdateien
etc.ergeben.
Diese Daten sind inhaltlich neu, sie
sind unstrukturiert, es sind unsagbar
viele - die wirklich interessantenIn-
formationen darin sind hingegen nur
äußerst dünn gesät.Insofern liegt es
nahe, sich an das folgende einfache
Vorgehensmodellzu halten:
1. GezieltesSammeln der neuartigen
Massendaten aus den relevanten
Datenquellen
! u"*,* i
;::"::,:"J
ffi
Abbildung2: VomTwitter-FeedzumBig-Data-ZugriffviaExternalTableim Data Warehouse
Abbildung3: BeispieleinesEndeca-Dashboards
Werkzeugen zusätzliche Suchfunkti-
onalitäten, die den unstrukturierten,
textuellen Informationen besser ge-
recht werden. Es handelt sich ieweils
um Ergänzungen zum Bestehenden,
also eher Evolution als Revolution.
Eine technische Kernfragelautet, wie
die unstrukturierten Massendatenaus
Big Data mit derfr Data Warehousever-
bunden werden können. Hierzu gibt
es seitensOracle mehrere technische
Möglichkeiten:
. OracleLoaderfor Hadoop
Daten aus einem Hadoop-Cluster
werden direkt in das Oracle Data
Warehousegeladen
. Oracle Direct Connectorfor Hadoop
HDFS
Direkter Zugriff auf das verteil-
DataWarehouseE Bl
te Filesystem ftir das Oracle Data
Warehouse
. Oracle Data Integrator (ODI) Appli-
cationAdapterpr Hadoop
Einbinden eines Hadoop-Jobsin ei-
nen ODl-Ladeprozess
Abbildung 2 zeigt beispielhaft anhand
von Twitter-Nachrichten zwei unter-
schiedliche Szenarien,wie sogenann-
aut Rohdaten
OracleDataWarehouse(Exadata)
External Table: HDFS_CAR_SENTIMENT
q;,i;i::, .;'1;i 16$ri,:ä#iiill 966;';;
Fod Fda 01{t-12 I 2
lnfiniBand
Fod F@6 0142-12 24 a
O6cle Dlrcct
Connoctorfor  Fod Fj50 o1{t{2 50 3
Hadoop HDFS Loatis: hdfs_forum-€r_model.toc
t
gE!,tca ,
l'Bor{ BDFS_CÄR_SnI!I!CN!
ls,*"'
"f
I gut* cott".t I Roalüme odel
| (searctr I hi6tori6ch€
I UserLookup) I O.En
r+
Oracle Big Data Appliance
H D F S
.::itiü:f , I rti':i:1.{,1{ili&$t*!üi{i&i:
FodFo601-01-2012 I 2
FordF@@01-02-2012 24 I
FodF-1500141-2012 50 3
File: PART-R-0000
ii::1i
DOAGNews4-2012| 47
Originalsystem (2.8. Datenbank)
@
q ! E t o ä l
ä i sg ä äF d ' = 3 Q ; l
{ ö i ä F 6
e
ä'
o
Endeca Index
liledlkamentenb$chrelbung (Text)
Sinclair I June
I
E!!t
--
iletlormin
m,2o1o
Metformin was approvedfor use in the U.S.
for treatment of type 2 dlabotes in
December, 1994. lt ls sold under the
brand name Glucophage and is also
availablegenerically. Metfomin is appro/ed
for trsatnent wilh sulfonylureas, or with
insulin, or as monotherapy (by itself).
Glu@phage XR Extended Release täblets, a
once daily version of metformin,is available.
Als. metiorminis availäble...
Sulfonylursag
"."dtdtt-
.4
EF
DataWarehouse&Bl
Abbildung4: BeispieleinesFacetten-Datenmodells
te ,,Social-Media-Daten" in die Big-
Data-Infrastruktur einesUntemehmens
überfährt und auswertbar gemacht wer-
den können. SzenarioL steht dabei für
den individuellen Entwicklungsansatz,
bei dem die Akquisition der Rohdaten
über Twitter-Developer-APls (siehe
http://dev.twitter.com) und die Daten-
organisation über das Hadoop-MapRe-
duce-Entwicklungs-Framework (nicht
abgebildet) erfolgt. Alternativ lassen
sich heute auch schon Mehrwertdiens-
te (Szenario2) in Anspruch nehmen,
die per Auftrag TWitter-Datenabzüge
aufbereiten und anreichem, indem sie
unter anderem den Geo-Bezugherstel-
len, den Einfluss der Twitter-Beiträge
auf andere per ,,Klout Score" ermitteln
oder eine Sentiment-Analyse durch-
ftihren. Im Ergebnis werden die rele-
vanten Daten (in der Abbildung die
RealTime
.E(,
o
o
o*,
t!
o
Abbildung5: Big-Data-Anwendungsbereiche: OracleLösungsquadrant
48 | www.doag.org
permanenler
semistrukturierter
Datenstrom
SelektiveUbernahme
Ubergangin
Bestandssysteme Datamart/ Datenausschnift
RohdatenoderverdichteteDaten
TraditionelleanalytischeAnwendungen
Abbildung6:AnalytisclresGesamtszensrio
veredelten Twitter-Feeds)als Key-Va-
lue-Paarein Dateiform in einem Ha-
doop Distributed File System(HDFS)
zur weiteren Analyse bereitgestellt.
Nutzt man hierzu die Oracle-Big-Data-
Infrastruktur in Kombination mit ei-
nem Oracle-Data-Warehouse,eröffnet
sich dem Analysten ein eleganterWeg
des Datenzugriffs per External Tables
und SQL(sieheauch I4l).
Analysemöglichkeiten
Die Akquisition von Endecaerweitert
das bisherige Oracle-Business-lntelli-
gence-Analyse-Spektrum,indem die
textbasierteSucheunstrukturierter In-
formationen mit den typischen quan-
titativen Bl-Analysen kombiniert und
dem Benutzerintuitiv nutzbar präsen-
tiert wird. Die Verbindung quantita-
tiver und qualitativer Informationen
überschreitet die klassischeGrenze
von BusinessIntelligenceund kann
konzeptionell dem Knowledge Ma-
nagementzugeördnetwerden.DerSlo-
gan ,,No data left behind" drückt die-
sePhilosophietreffend aus.Erweiterte
Analyse-Funktionensind zum Beispiel
die unternehmensweiteSuche,die Prä-
sentationin Form von TagClouds,das
datengetriebenedynamische Filtern
von Merkmalen und die sogenannte
,,Facetten-Navigation",bei der die Su-
che und Auswahl von Attributen wie
auf einerWebseitefunktioniert [5].
Abbildung 3 zeigt plastisch Teile
dieser neuen funktionalen Möglich-
keiten. Es geht um die Analyse eines
Twitter-Streams zum Thema ,,Auto
Make and Model". In der Guided-Na-
vigation-Leiste links sieht man die
einbezogenenDatenquellen (iPhone-,
Android- und Blackberry-Nutzer)und
die weiteren gesetztenFilterkriterien
(,,FordFocus").Oben in der Metrik-
Leiste wird ausgewiesen,dass in 416
(von ca.350.000Interaktionen)zutref-
fende Nachrichten gefunden wurden
und sich400 (derca.132.500Benutzer)
zu diesemThema austauschen.In den
Tag-Cloudswerden besondershäufig
verwendete,unterschiedlichePkw-Mo-
delle und andereBegriffehervorgeho-
ben, wobei die Größe der Schrift zeigt,
auf welche Wörter die meisten Treffer
kommen. Die bereitserwähnten Mög-
lichkeiten zur Anreicherungvon Soci-
al-Media-Datendurch,,Klout Scores"
und Sentiment-Analysenhelfen dem
Analystenbei der Bewertungder Twit-
ter-Beiträge,etwa in Form zusätzlicher
Metriken oder weiterer Attribute für
die gefuhrte Suche im Datenbestand.
Schließlich finden sich unten weitere
Statistiken,die zusätzlichenkorrespon-
dierendenInhalt enthalten können.
Bevor es zur fachlichen Analyse
kommen kann, sind die Daten aufzu-
bereiten, gegebenenfallszu verknüp-
fen sowie anzureichern.Neben klassi-
schen ETl-Funktionen gibt es seitens
Endeca ein erweiterbares Content-
Acquisition-System(CAS) für die Da-
ten-Integration von Hunderten von
Dateitypen, Dokument-Repositories,
CMS-Systemen,Webinhalten und RSS-
Feeds.CAS kann sowohl Dateiserver
als auch Twitter, Facebook& Co. ana-
I
DOAGlVeyrs1-2012 49
DataWarehouseE Bl
lysieren.Jedesunstrukturierte Attribut
kann verarbeitetund um weitereInfor-
mationen angereichertwerden.Gängi-
geTechniken sind:
. Automatic Tagging
. Named Entity Extraction
. Sentiment Analysis
. Term Extraction
. GeospatialMatching
Die unstrukturierten Daten können
mit anderen Datensätzenüber einen
beliebigen Schlüsselmiteinander ver-
bunden werden. Natürlich können
auch strukturierte Daten mit diesen
unstrukturierten Daten im Rahmen
des ETl-Prozessesverknüpft sein. Da-
bei wird keine feste analysefokussier-
te Datenmodellierung betrieben - wie
im Data Warehousein Richtung Star-
oder Snowflake-Modell in Form von
fest verknüpften Tabellen üblich -,
sondern die Dimensionen werden alle
gleichberechtigtnebeneinanderin ein
Modell gelegt. In der Praxis existie-
ren Analyse-Modelle mit mehreren
Hundert Dimensionen. Aus fachlicher
Sicht eröffnen sich sounendliche Ana-
lyse-Möglichkeiten. Abbildung 4 ver-
anschaulicht die Idee deshochdimen-
sionalenFacetten-Datenmodells.
DiePraxis
Big-Data-Projekte sind kein Selbst-
zweck. Die neue Technik ist reizvoll,
aufgrund desnotwendigen Spezialwis-
sensund der sehr großen Datenmen-
gen (Hardware-Bedarf)aber durchaus
kostenintensiv. Daher ist es erforder-
lich, die fachlichen neuen Möglich-
keiten, die sich ausBig-Data-Analysen
ergebenkönnen, nüchtern zu bewer-
ten. Daskann nur jedesUnternehmen
selbstanhand seinerAnwendungsfälle
tun. In Anlehnung an [6] zeigt Abbil-
dung 5 eine Gegenüberstellungeiniger
Big-Data-Anwendungsbereicheund des
Oracle-Lösungsangebotszu Big Data
und DataWarehousing.
Unter wn w.doag.org/go/doagnews/
erb_tabellesind beispielhaft fünf aus-
gewählteUseCasesvorgestelltund ihre
Komplexität sowie deren Geschäfts-
nutzen bewertet.
Quellenverzeichnis
[1] McKinsey Global Institute: Big Data: The
next frontier for innovation, competi
tion, and productiviry Report, May 2011:
http: i /www.mckinsey. com/Insights/MGI/
Research/Technology_and_lnnovation/Big_
data_The_next_frontier_for_innovation
[2] Carsten Czarski,Big Data: Eine Einführung,
Oracle Dojo Nr. 2, München 2O72: http:ll
www.oracle. com/webfolder/technetwork/
de/community/dojo/index.html
[3| Cackett,D./Bond, A./Lancaster,K./Leiker,K.,
Enabling Pervasive BI through a Practi-
cal Data Warehouse Reference Architec-
ture, An Oracle White Paper,Februar2010:
http://www.oracle.com/us/solutions/data-
warehousing/058925.pdf
[4] Günther Stürner, Big Data - Hype und
Wirklichkeit, Vortrag auf dem Führung-
skräfte-Forum,,Ergebnis-und wirkungsori-
entierte Steuerung" des Behördenspiegels:
http ://www.fuehrungskraefte-f orum.de/?
page_id=1617
[5] Mark Rittman, Where Does Endeca Fit
with Oracle BI and DW?, 22. Februar2072,
http://www.rittmanmead. com I ZO12I 02I
oracle-endeca-week-where-does-endeca-fit-
with-oracle-bi-dw-and-epm/
[6] Ravi Kalakota, Big Data Analytics Use Cas-
es, 12. Dezember 2011: http://practicalana-
lltics.wordpress.com I 2O71,I 12I 12 lbig-data-
analytics-use-cases
[7] TU München, o.V., Neuer Krebsauslöserin
Pommes frites entdecku scinexx - Das Wis-
sensmagazin,19.August 2008, http://wn'w.g-
o.de/wissen-aktuell-8686-2008-08-19.html
[8] o.V.:Bei Twitter hat Obama im Wahlkampf
die Nase vorn, in Westdeutsche Allgemeine
Zeitung Online, 3. Januar 2012, http:ll
www.derwesten. de/wirtschaft/digital/bei-
twitter-hat-obama-im-wahlkampf-die-
nase-vorn-id6210915.html
[9] o.V.: Neue Umsatzsteuer soll Betrug vor-
beugen, in Frankfurter Allgemeine Zeitung
Online, 20. Oktober 2005: http://rvww.faz.
net/aktuell/wirtschaft/wirtschaftspolitik/
h aushalt- neu e-um satzsteu er-sol I-betrug-
vorbeugen-1282702.html
Oliver Röniger
oliver.roeniger@
oracle.com
Harald Erb
harald.erb@
oracle.com
Firmenmitglieder
DirkFleischmann,cubusBlSolutionsGmbH
WolfgangHack,dimensioInformaticsGmbH
VolkerOboda,DMySQLAGe.V
MartinBöddecker,mbSupportGmbH
HansHaselbeck,EMPIRIUSGmbH
UweSchreiber
WolfgangMichaelGirsch
ChristaWeckman
ThomasKrahn
MarcoStroech
WoltgangBossmann
ChristophMecker
CorinnaKerstan
GerhardSchaefet
MichaelTucek
RüdigerZiegler
ErikaKrüger
AndreasKoop
UlrichGerkmann-Baftels
ManfredDrozd
ChristophQuereser
AndreasRernhardt
MarkusVincon
Wir begrül3enunsereneuenMitglieder
PersönlicheMitglieder
NorbertKossok
DirkWemhöner
AlexandraStrauß
ThomasEwald-Nifkiffa
KevinBrych
joachimEngel
ThorltenGrebe
MartinBernemann
JosefRabacher
50 | www.doag.org
Nr; Baänchä Anäly5ö:fokUs....,
1 Pharmaproduzent Produktpositionierung
2 Automobilhersteller qualitätssicherung
3 Verbraucherschutz Gefahreneinschätzung,Aufklärung
4 PolitischeParteien Wahlkampagnen
5 Steuerfahndung Betrugsermittlung
Tabelle1: AusgewählteBig Ddta UseCases
Tabelle2: UseCase,PharmaProfuum{
Tabelle3: UseCase,Automobilhersteller"
fia$eställun9, wirdunserneues'PräparatpositivindeiöffentlithkeitbesProchen?
Analyseziel Sentiment-Analyse,Habenwir mehrals70ProzentZustimmung?
Informationsquellen
Webseitenausgewählterpharmazeutischey'medizinischerForenundinternationalerFachzeitschrif-
ten
TwitterstreamsausgewählterMeinungsbildner
Integrationsbedarf
AusdemDWHwerdenwöchentlichdieAbverkaufsdatennachRegionenalsVergleichsmaßstab
bereitgestelltsowiedieaktuellenKampagnenkostenaufgefächertnachKanal
Komplexität Gering
Zyklus BeschränkterBeobachtungszeitraum
Nutzen
ErfolgskontrolleundgegebenenfallsNeuausrichtung/FokussierungderkostenintensivenMatketing-
Aktivitäten
$i,agestellung,
W6..weadeü.'.te$nis{heiAilähü$l:.gämef:deti,,deräh,,,küffiistig€:::6*üaka;mibimO..!*.Uerlau{enden
Fiodüktiiöni..;täte-:.gäEehänfnlls,,notweödigä;r:rkoit€rrintenatu€::Rürkufaktionen,:iowie:,|:mä:gä:
schädenVermeiaenhitttr i ,
Analyseziel Qualitätsmanagementin derProduktion,Frühwarnung
Informationsquellen
WebseitenausgewählterKfz-Foren
WerkstattberichtederVertragshändler
lntegrationsbedarf
IntegrationderErkenntnisseerfolgtnachträglichin dasbestehendeDataWarehouse,bestehende
qualitatserfahrungenausderVergangenheitwerdenzumVergleichgenutzt
Komplexität Mitrel
Zyklus laufendeAnalyseim erstenProduktionsjahrdesModells
Nutzen
[eichtrechenbaranhanddertäglichenProduktionskapazitätmultipliziertmit dennachträglichen
Fehlerkorrektur-Kostenprowerktück.JederTag,dereherzurProblembehebungführt,refinanziert
direktdasAnalyse-Projekt.
riägast€llüng:
,,Forscherhabenin Kartoffel-ChipsundFommesfriteserstmalseinö,,.Substänzdlrektnathgewleien,
die,noch,,üiei,::gefähilicher:iit,,af*,,Acrtlämid::::Dä,s::as::gerräfihter6lycidräm]d:::en!{!qht...ebirnfälts
tfhi&n::'ünil|Ka*u+tätpigo*t<ren...und:.steht..im:ir'ei#tht::5rki:*idbi.:idiid
Analyseziel
WofindensichwissenschaftlicheGutachtenundBerichtezuclycidamid,internundextern?Wofinden
sichAnhaltspunktedazuin unserenvorhandenenMessdatenausderPraxis?
Informationsquellen
WebseitenausgewählterFotenundinternationalerFachzeitschriften
[aborberichteausdenl-aborsystemenderlebensmittelüberwachungs-BehördeneinesBundeslandes
undderKommunen
EigenesDokumenten-ManagementsystemundgegebenenfallswissenschaftlicheBibliotheken
Integrationsbedarl
Oftexistiertin VerbraucherschutzministerienkeinumfassendesDWH,dortwirdaufgrundderTextorien-
tierungbislangehermit Dokumentenmanagementsystemengearbeitet
Komplexität Mittel- eherEnterpriseSearchalsechteAnalyse
Zyklus EinzelfallbezogeneAnalysen,je nachDringlichkeitkurzfristignotwendig
Nutzen
DieQuantifizierungdesNutzensin Geldeinheitenfällt hierschwer.DergesellschaftlicheAuftragver-
langt intensivenEinsatz,dieBevölkerungmussaktivinformiertwerden.
Tabelle4: UseCase,,Verbraucherschutzministerium"
Tabelle5: UseCase,,PolitischeParteien"
Tabelle6:
_Use
Case,,Starcrfahndun{
riagesiälfüa(
rEezag:en:::ä|Jf::pofititffier::älEtüälte,themen{wiu,,Gunmäi5,,,Ätomä,usities;::ACrA):::ioll:::ein::5limrnüngsbild,
,,DieamerikanischenFiaiiaentschäitsbeweöernützenfui ihrekarnpägnenäüsgiebigdenKuit
näihiithtenUienst,,rwiftef,,,Sie,,*erwäisen,äuf,,lhre,,,FpEary11e",,,erz"ihlea:::tirn:::ih,,@enmdä,,,orIer
danken.füiei*eh;..nättcn;;;Empfän'i::A|:leidio9i...si.nd..nid*::ä:}|c::9|aid}::in
Analyseziel
Sentiment-AnalyseWelchePositionistmehrheitsfähig?wie verändernsichMeinungendergleichen
Wählerim Zeitablauf(zumindestbisauf Regionenheruntergebrochen)?
Informationsquellen
WebseitenausgewählterpolitischerForenundvonTages-/WochenzeitensowieNachrichtenagenturen
TwitterstreamsausgewählterMeinungsbildner
WettbewerbsbeobachtungderanderenParteien
IntegrationsbedarfKeineIntegrationzuvorhandenenlT-Systemennotwendig
Komplexität 6ering
Zyklus Einzelthemenwerdenim Zeitablaufbeobachtet
Nutzen
Bereits2008hat BarackobamaseineKampagnenim Präsidentschaftswahlkampfsehrstarkmittelsder
neuenMediengeführtundauchSpendengesammelt.DerErfolgistbekannt.
iFiä:geitellung
0ürctr,::ÜfüiätistäüäflKäiuiiöfrlääatstehän.tähitith::s$ä:dänr:rln1Iöhä,,von,,4,5:iafd;::Eüfö:r:lnrroäüts$läöd
[9]i Händlererhaltenumsatzsleüereibtattung,en,obwohlkeinewäiän:rCätin Cesertrtengeherge- ,
stelltundvertriebenwurden.DieseBetrugriättegitiesiut uOeitäÄ.','
Analyseziel
ldentifizierungderHändler-NetzwerkeundihrerScheingeschäfte.DasgelingtdurchSocialNetwork
Analysis(SNA),in derdieverdächtigenHändleralsKnotenmodelliertundihrZusammenwirkenim
Netzwerkuntersuchtwirc.
Infotmationsquellen
MassendatenausderUmsatzsteuererstattung
Jahresabschlussdaten,alleEinnahmen/Ausgaben(Rechnungen)undGeschäftsbeteiligungenvonver-
dächtigenHändlern
Integrationsbedarf
DieTransaktionsdatenundHändler-Stammdatenkommenausdem DataWarehouse,dieanderenDaten
derHändlerwerdendamitverknüpft
Komplexität Sehrhoch,nahtloserÜbergangzuDataMining
Zyklus MonatlichesScreening,dannfallweisesBearbeiten
Nutzen
DerNutzenerrechnetsichunmittelbarausdenaufgedecktenFällen:AlleineingrößererFallrechtfertigt
kostenseitigbereitsdasGesamtprojekt.

Weitere ähnliche Inhalte

Andere mochten auch

Ingolstadt privatheit 2011_print
Ingolstadt privatheit 2011_printIngolstadt privatheit 2011_print
Ingolstadt privatheit 2011_printJan Schmidt
 
Guia biblioteca
Guia bibliotecaGuia biblioteca
Guia bibliotecabibliocoto
 
Vernetzte Öffentlichkeiten 2013, Sitzung 12, "Messen, Methoden, Big Data"
Vernetzte Öffentlichkeiten 2013, Sitzung 12, "Messen, Methoden, Big Data"Vernetzte Öffentlichkeiten 2013, Sitzung 12, "Messen, Methoden, Big Data"
Vernetzte Öffentlichkeiten 2013, Sitzung 12, "Messen, Methoden, Big Data"Jan Schmidt
 
Calculo Matemático
Calculo Matemático Calculo Matemático
Calculo Matemático vaelmps
 
Feac primaria 11 març 2014
Feac primaria 11 març 2014Feac primaria 11 març 2014
Feac primaria 11 març 2014JORDIMELE
 
Passau privatheit 2010_print
Passau privatheit 2010_printPassau privatheit 2010_print
Passau privatheit 2010_printJan Schmidt
 
Morning linedealfonsorodriguezveralar8nov14
Morning linedealfonsorodriguezveralar8nov14Morning linedealfonsorodriguezveralar8nov14
Morning linedealfonsorodriguezveralar8nov14Winston1968
 
Qué es el internet
Qué es el internetQué es el internet
Qué es el internetsebaspaola
 
Habilidades Técnicas de un Community Manager
Habilidades Técnicas de un Community ManagerHabilidades Técnicas de un Community Manager
Habilidades Técnicas de un Community ManagerPaulRL
 
Placa base esti galindo
Placa base esti galindoPlaca base esti galindo
Placa base esti galindoestigalindo
 
trabajo en clase colegio BRAVO PAEZ I.E.D
trabajo en clase colegio BRAVO PAEZ I.E.Dtrabajo en clase colegio BRAVO PAEZ I.E.D
trabajo en clase colegio BRAVO PAEZ I.E.DJulian Murcia
 
Presentacion power point proyecto nuevo
Presentacion power point proyecto nuevo Presentacion power point proyecto nuevo
Presentacion power point proyecto nuevo Jessica Riiziithas
 
Presentacion blogger
Presentacion bloggerPresentacion blogger
Presentacion bloggerisabelmsg
 
Imagen estigalindo.pdfth
Imagen estigalindo.pdfthImagen estigalindo.pdfth
Imagen estigalindo.pdfthestigalindo
 
El realismo (2)
El realismo (2)El realismo (2)
El realismo (2)jhonxd14
 

Andere mochten auch (20)

Ingolstadt privatheit 2011_print
Ingolstadt privatheit 2011_printIngolstadt privatheit 2011_print
Ingolstadt privatheit 2011_print
 
Guia biblioteca
Guia bibliotecaGuia biblioteca
Guia biblioteca
 
Vernetzte Öffentlichkeiten 2013, Sitzung 12, "Messen, Methoden, Big Data"
Vernetzte Öffentlichkeiten 2013, Sitzung 12, "Messen, Methoden, Big Data"Vernetzte Öffentlichkeiten 2013, Sitzung 12, "Messen, Methoden, Big Data"
Vernetzte Öffentlichkeiten 2013, Sitzung 12, "Messen, Methoden, Big Data"
 
Social Media für Einzelpersonenunternehmen
Social Media für EinzelpersonenunternehmenSocial Media für Einzelpersonenunternehmen
Social Media für Einzelpersonenunternehmen
 
Wernher v. Braun
Wernher v. Braun Wernher v. Braun
Wernher v. Braun
 
Calculo Matemático
Calculo Matemático Calculo Matemático
Calculo Matemático
 
Feac primaria 11 març 2014
Feac primaria 11 març 2014Feac primaria 11 març 2014
Feac primaria 11 març 2014
 
Passau privatheit 2010_print
Passau privatheit 2010_printPassau privatheit 2010_print
Passau privatheit 2010_print
 
Morning linedealfonsorodriguezveralar8nov14
Morning linedealfonsorodriguezveralar8nov14Morning linedealfonsorodriguezveralar8nov14
Morning linedealfonsorodriguezveralar8nov14
 
41408 mi tiempo libre
41408 mi tiempo libre41408 mi tiempo libre
41408 mi tiempo libre
 
Qué es el internet
Qué es el internetQué es el internet
Qué es el internet
 
Delitos informaticos
Delitos informaticosDelitos informaticos
Delitos informaticos
 
Habilidades Técnicas de un Community Manager
Habilidades Técnicas de un Community ManagerHabilidades Técnicas de un Community Manager
Habilidades Técnicas de un Community Manager
 
Placa base esti galindo
Placa base esti galindoPlaca base esti galindo
Placa base esti galindo
 
trabajo en clase colegio BRAVO PAEZ I.E.D
trabajo en clase colegio BRAVO PAEZ I.E.Dtrabajo en clase colegio BRAVO PAEZ I.E.D
trabajo en clase colegio BRAVO PAEZ I.E.D
 
Maek elliot
Maek elliot Maek elliot
Maek elliot
 
Presentacion power point proyecto nuevo
Presentacion power point proyecto nuevo Presentacion power point proyecto nuevo
Presentacion power point proyecto nuevo
 
Presentacion blogger
Presentacion bloggerPresentacion blogger
Presentacion blogger
 
Imagen estigalindo.pdfth
Imagen estigalindo.pdfthImagen estigalindo.pdfth
Imagen estigalindo.pdfth
 
El realismo (2)
El realismo (2)El realismo (2)
El realismo (2)
 

Ähnlich wie DOAG News 2012 - Analytische Mehrwerte mit Big Data

Anwendungsbeispiele von Enterprise Mashups
Anwendungsbeispiele von Enterprise MashupsAnwendungsbeispiele von Enterprise Mashups
Anwendungsbeispiele von Enterprise Mashupstischmid
 
Big data im controlling gentsch kulpa-03-2016
Big data im controlling gentsch kulpa-03-2016Big data im controlling gentsch kulpa-03-2016
Big data im controlling gentsch kulpa-03-2016Peter Gentsch
 
BODDy 2014: Ergebnisse Projektgruppe Open Data - Wolfgang Both
BODDy 2014: Ergebnisse Projektgruppe Open Data - Wolfgang BothBODDy 2014: Ergebnisse Projektgruppe Open Data - Wolfgang Both
BODDy 2014: Ergebnisse Projektgruppe Open Data - Wolfgang BothBerlinOpenDataDay
 
ExsoFlow Workflow & IntegrationServer technische Information
ExsoFlow Workflow & IntegrationServer technische InformationExsoFlow Workflow & IntegrationServer technische Information
ExsoFlow Workflow & IntegrationServer technische InformationEXSO. business solutions GmbH
 
M-Files führt in der Content Management Value Matrix 2020 von Nucleus Research
M-Files führt in der Content Management Value Matrix 2020 von Nucleus ResearchM-Files führt in der Content Management Value Matrix 2020 von Nucleus Research
M-Files führt in der Content Management Value Matrix 2020 von Nucleus Researchbhoeck
 
Einführung in Metadatenverwaltung
Einführung in MetadatenverwaltungEinführung in Metadatenverwaltung
Einführung in MetadatenverwaltungOpen Data Support
 
Linked Data - Das Ende des Dokuments?
Linked Data - Das Ende des Dokuments?Linked Data - Das Ende des Dokuments?
Linked Data - Das Ende des Dokuments?Semantic Web Company
 
Webinar Slides: SharePoint als Drehscheibe fuer ihr Unternehmenswissen
Webinar Slides: SharePoint als Drehscheibe fuer ihr UnternehmenswissenWebinar Slides: SharePoint als Drehscheibe fuer ihr Unternehmenswissen
Webinar Slides: SharePoint als Drehscheibe fuer ihr UnternehmenswissenB-S-S Business Software Solutions GmbH
 
M-Files als Visionär im Gartner Magic Quadrant for Content Services Platforms...
M-Files als Visionär im Gartner Magic Quadrant for Content Services Platforms...M-Files als Visionär im Gartner Magic Quadrant for Content Services Platforms...
M-Files als Visionär im Gartner Magic Quadrant for Content Services Platforms...bhoeck
 
Einführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in MassendatenEinführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in MassendatenMartin Voigt
 
Powersphere Lotus Connections
Powersphere Lotus ConnectionsPowersphere Lotus Connections
Powersphere Lotus ConnectionsAndreas Schulte
 
M-Files im dritten Jahr in Folge als Visionär in Gartners Magic Quadrant für ...
M-Files im dritten Jahr in Folge als Visionär in Gartners Magic Quadrant für ...M-Files im dritten Jahr in Folge als Visionär in Gartners Magic Quadrant für ...
M-Files im dritten Jahr in Folge als Visionär in Gartners Magic Quadrant für ...bhoeck
 
Top 10 der Business Intelligence-Trends für das Jahr 2014
Top 10 der Business Intelligence-Trends für das Jahr 2014Top 10 der Business Intelligence-Trends für das Jahr 2014
Top 10 der Business Intelligence-Trends für das Jahr 2014Tableau Software
 
Linked Media. Ein White-Paper zu den Potentialen von Linked People, Linked C...
Linked Media. Ein White-Paper zu den Potentialen von  Linked People, Linked C...Linked Media. Ein White-Paper zu den Potentialen von  Linked People, Linked C...
Linked Media. Ein White-Paper zu den Potentialen von Linked People, Linked C...Salzburg NewMediaLab
 
Social Media Analytics – Aktuelle Herausforderung
Social Media Analytics – Aktuelle HerausforderungSocial Media Analytics – Aktuelle Herausforderung
Social Media Analytics – Aktuelle HerausforderungRalf Klamma
 
DE - Module 4 - Data as a business model driver
DE - Module 4 - Data as a business model driverDE - Module 4 - Data as a business model driver
DE - Module 4 - Data as a business model drivercaniceconsulting
 

Ähnlich wie DOAG News 2012 - Analytische Mehrwerte mit Big Data (20)

Anwendungsbeispiele von Enterprise Mashups
Anwendungsbeispiele von Enterprise MashupsAnwendungsbeispiele von Enterprise Mashups
Anwendungsbeispiele von Enterprise Mashups
 
Big Data und Business Intelligence
Big Data und Business IntelligenceBig Data und Business Intelligence
Big Data und Business Intelligence
 
Big data im controlling gentsch kulpa-03-2016
Big data im controlling gentsch kulpa-03-2016Big data im controlling gentsch kulpa-03-2016
Big data im controlling gentsch kulpa-03-2016
 
BODDy 2014: Ergebnisse Projektgruppe Open Data - Wolfgang Both
BODDy 2014: Ergebnisse Projektgruppe Open Data - Wolfgang BothBODDy 2014: Ergebnisse Projektgruppe Open Data - Wolfgang Both
BODDy 2014: Ergebnisse Projektgruppe Open Data - Wolfgang Both
 
ExsoFlow Workflow & IntegrationServer technische Information
ExsoFlow Workflow & IntegrationServer technische InformationExsoFlow Workflow & IntegrationServer technische Information
ExsoFlow Workflow & IntegrationServer technische Information
 
M-Files führt in der Content Management Value Matrix 2020 von Nucleus Research
M-Files führt in der Content Management Value Matrix 2020 von Nucleus ResearchM-Files führt in der Content Management Value Matrix 2020 von Nucleus Research
M-Files führt in der Content Management Value Matrix 2020 von Nucleus Research
 
Einführung in Metadatenverwaltung
Einführung in MetadatenverwaltungEinführung in Metadatenverwaltung
Einführung in Metadatenverwaltung
 
Linked Data - Das Ende des Dokuments?
Linked Data - Das Ende des Dokuments?Linked Data - Das Ende des Dokuments?
Linked Data - Das Ende des Dokuments?
 
Webinar Slides: SharePoint als Drehscheibe fuer ihr Unternehmenswissen
Webinar Slides: SharePoint als Drehscheibe fuer ihr UnternehmenswissenWebinar Slides: SharePoint als Drehscheibe fuer ihr Unternehmenswissen
Webinar Slides: SharePoint als Drehscheibe fuer ihr Unternehmenswissen
 
M-Files als Visionär im Gartner Magic Quadrant for Content Services Platforms...
M-Files als Visionär im Gartner Magic Quadrant for Content Services Platforms...M-Files als Visionär im Gartner Magic Quadrant for Content Services Platforms...
M-Files als Visionär im Gartner Magic Quadrant for Content Services Platforms...
 
Einfuhrung datascience
Einfuhrung datascienceEinfuhrung datascience
Einfuhrung datascience
 
Einführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in MassendatenEinführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in Massendaten
 
Big Data Appliances
Big Data AppliancesBig Data Appliances
Big Data Appliances
 
Powersphere Lotus Connections
Powersphere Lotus ConnectionsPowersphere Lotus Connections
Powersphere Lotus Connections
 
M-Files im dritten Jahr in Folge als Visionär in Gartners Magic Quadrant für ...
M-Files im dritten Jahr in Folge als Visionär in Gartners Magic Quadrant für ...M-Files im dritten Jahr in Folge als Visionär in Gartners Magic Quadrant für ...
M-Files im dritten Jahr in Folge als Visionär in Gartners Magic Quadrant für ...
 
Opendata and data-driven-journalism
Opendata and data-driven-journalismOpendata and data-driven-journalism
Opendata and data-driven-journalism
 
Top 10 der Business Intelligence-Trends für das Jahr 2014
Top 10 der Business Intelligence-Trends für das Jahr 2014Top 10 der Business Intelligence-Trends für das Jahr 2014
Top 10 der Business Intelligence-Trends für das Jahr 2014
 
Linked Media. Ein White-Paper zu den Potentialen von Linked People, Linked C...
Linked Media. Ein White-Paper zu den Potentialen von  Linked People, Linked C...Linked Media. Ein White-Paper zu den Potentialen von  Linked People, Linked C...
Linked Media. Ein White-Paper zu den Potentialen von Linked People, Linked C...
 
Social Media Analytics – Aktuelle Herausforderung
Social Media Analytics – Aktuelle HerausforderungSocial Media Analytics – Aktuelle Herausforderung
Social Media Analytics – Aktuelle Herausforderung
 
DE - Module 4 - Data as a business model driver
DE - Module 4 - Data as a business model driverDE - Module 4 - Data as a business model driver
DE - Module 4 - Data as a business model driver
 

Mehr von Harald Erb

Actionable Insights with AI - Snowflake for Data Science
Actionable Insights with AI - Snowflake for Data ScienceActionable Insights with AI - Snowflake for Data Science
Actionable Insights with AI - Snowflake for Data ScienceHarald Erb
 
Snowflake for Data Engineering
Snowflake for Data EngineeringSnowflake for Data Engineering
Snowflake for Data EngineeringHarald Erb
 
Dataiku & Snowflake Meetup Berlin 2020
Dataiku & Snowflake Meetup Berlin 2020Dataiku & Snowflake Meetup Berlin 2020
Dataiku & Snowflake Meetup Berlin 2020Harald Erb
 
Does it only have to be ML + AI?
Does it only have to be ML + AI?Does it only have to be ML + AI?
Does it only have to be ML + AI?Harald Erb
 
Delivering rapid-fire Analytics with Snowflake and Tableau
Delivering rapid-fire Analytics with Snowflake and TableauDelivering rapid-fire Analytics with Snowflake and Tableau
Delivering rapid-fire Analytics with Snowflake and TableauHarald Erb
 
Machine Learning - Eine Challenge für Architekten
Machine Learning - Eine Challenge für ArchitektenMachine Learning - Eine Challenge für Architekten
Machine Learning - Eine Challenge für ArchitektenHarald Erb
 
DOAG Big Data Days 2017 - Cloud Journey
DOAG Big Data Days 2017 - Cloud JourneyDOAG Big Data Days 2017 - Cloud Journey
DOAG Big Data Days 2017 - Cloud JourneyHarald Erb
 
Do you know what k-Means? Cluster-Analysen
Do you know what k-Means? Cluster-Analysen Do you know what k-Means? Cluster-Analysen
Do you know what k-Means? Cluster-Analysen Harald Erb
 
Exploratory Analysis in the Data Lab - Team-Sport or for Nerds only?
Exploratory Analysis in the Data Lab - Team-Sport or for Nerds only?Exploratory Analysis in the Data Lab - Team-Sport or for Nerds only?
Exploratory Analysis in the Data Lab - Team-Sport or for Nerds only?Harald Erb
 
Big Data Discovery + Analytics = Datengetriebene Innovation!
Big Data Discovery + Analytics = Datengetriebene Innovation!Big Data Discovery + Analytics = Datengetriebene Innovation!
Big Data Discovery + Analytics = Datengetriebene Innovation!Harald Erb
 
Big Data Discovery
Big Data DiscoveryBig Data Discovery
Big Data DiscoveryHarald Erb
 
Oracle Unified Information Architeture + Analytics by Example
Oracle Unified Information Architeture + Analytics by ExampleOracle Unified Information Architeture + Analytics by Example
Oracle Unified Information Architeture + Analytics by ExampleHarald Erb
 
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...Harald Erb
 

Mehr von Harald Erb (13)

Actionable Insights with AI - Snowflake for Data Science
Actionable Insights with AI - Snowflake for Data ScienceActionable Insights with AI - Snowflake for Data Science
Actionable Insights with AI - Snowflake for Data Science
 
Snowflake for Data Engineering
Snowflake for Data EngineeringSnowflake for Data Engineering
Snowflake for Data Engineering
 
Dataiku & Snowflake Meetup Berlin 2020
Dataiku & Snowflake Meetup Berlin 2020Dataiku & Snowflake Meetup Berlin 2020
Dataiku & Snowflake Meetup Berlin 2020
 
Does it only have to be ML + AI?
Does it only have to be ML + AI?Does it only have to be ML + AI?
Does it only have to be ML + AI?
 
Delivering rapid-fire Analytics with Snowflake and Tableau
Delivering rapid-fire Analytics with Snowflake and TableauDelivering rapid-fire Analytics with Snowflake and Tableau
Delivering rapid-fire Analytics with Snowflake and Tableau
 
Machine Learning - Eine Challenge für Architekten
Machine Learning - Eine Challenge für ArchitektenMachine Learning - Eine Challenge für Architekten
Machine Learning - Eine Challenge für Architekten
 
DOAG Big Data Days 2017 - Cloud Journey
DOAG Big Data Days 2017 - Cloud JourneyDOAG Big Data Days 2017 - Cloud Journey
DOAG Big Data Days 2017 - Cloud Journey
 
Do you know what k-Means? Cluster-Analysen
Do you know what k-Means? Cluster-Analysen Do you know what k-Means? Cluster-Analysen
Do you know what k-Means? Cluster-Analysen
 
Exploratory Analysis in the Data Lab - Team-Sport or for Nerds only?
Exploratory Analysis in the Data Lab - Team-Sport or for Nerds only?Exploratory Analysis in the Data Lab - Team-Sport or for Nerds only?
Exploratory Analysis in the Data Lab - Team-Sport or for Nerds only?
 
Big Data Discovery + Analytics = Datengetriebene Innovation!
Big Data Discovery + Analytics = Datengetriebene Innovation!Big Data Discovery + Analytics = Datengetriebene Innovation!
Big Data Discovery + Analytics = Datengetriebene Innovation!
 
Big Data Discovery
Big Data DiscoveryBig Data Discovery
Big Data Discovery
 
Oracle Unified Information Architeture + Analytics by Example
Oracle Unified Information Architeture + Analytics by ExampleOracle Unified Information Architeture + Analytics by Example
Oracle Unified Information Architeture + Analytics by Example
 
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
 

DOAG News 2012 - Analytische Mehrwerte mit Big Data

  • 1. DataWarehouse&Bl SeiteinigenMonatenwird,,BigData"intensiVaberauchkontroversdiskutiert.DieserArtikelzeigtnacheinemern- führendenÜberblickanhandvonAnwendungsfällenauf,wodiegeschäftlichenMehrwertevonBig-Data-Pro;ekt liecenrrndwipdieseneuenErkenntnisseindiebestehendenData-Warehouse-undBusiness-lntellinence-Pr inteqriertwerdenkönnen. 2. Filtern dieserDaten aufgrund defi- nierter interessanterMerkmale 3. SelektiveWeiterverarbeitungbezie- hungsweiseÜbernahme der inter- essantenInformationen in die vor- handenen internen IT-Systeme 4. Die verarbeitetenDaten ausdem 1. Schritt wegwerfenund den Prozess fortsetzen Um diese unstrukturierten, schema- Iosen Daten überhaupt sammeln zu können, wurden von Google und an- deren Internet-Pionieren NoSQL-Da- tenbanken (wie Cassandra)entwickelt und mit Hadoop sowohl ein verteiltes Dateisystem(HDFS)als auch ein Ent- wicklungs-Framework(MapReduce)be- reitgestellt (siehe Positionierung der OracleBig Data Appliance [2]). Abbil- dung 1 stellt die maßgeblichen Kom- ponenten der NoSQL- und SQL-Welt gegenüber. Zunächst soll eine mögliche ge- meinsameArchitektur betrachtet wer- den, um diese Technologien parallel oder auch gemeinsam zu betreiben, bevor aus Anwendungssicht die Frage geklärt wird, was diesespragmatische Vorgehensmodellkonkrei fiir verschie- deneAnwendungsfällebedeutet. ZusammenspielBigData/Data Walehouse Bei einer klassischenKonzeption eines Data-Warehouseund Business-Intelli- gence-Systems,leicht modifiziert nach [3], bleiben durch Big Data die beste- henden Data-Warehouse-und Busi- ness-lntelligence-Prozessezunächstun- angetastet.Die neuartigen Datenquel- len erweiternaberzum einen den ana- lyserelevanteDatenraum, was Erkennt- nisgewinn verspricht, zum anderen treten an die Seitevon klassischenBI-Abbil dung 7: Gegenüberstellung derKomponenten 46 |www.doag.org Analytische Mehrwerte von Big Data Oliver Rönigerund Harald Erb,ORACLEDeutschlandB.V.& Co. KG Der McKinsey-Report ,,Big Data" be- tont die enorme gesellschaftlicheund geschäftliche Bedeutung,die sich aus den explodierenden Datenmengen in nahezu allen Branchen ergibt [1]. Um tatsächlich von ,,Big Data" zu spre- chen, sind drei Merkmale zu erftillen (,,3vs"): . Volume RiesigeDatenmengen(xx Terabyte), die sich bislang nicht für Data- Warehouse-Analysen erschließen lassen,weil deren relevante Infor- mationsdichte einfach zu gering ist, als das sich deren Speicherungund Verarbeitung aus wirtschaftlicher Sicht lohnt. . Velocity Die hektischezeitliche Frequenz,in der Daten in operativen Geschäfts- Prozessen entstehen. Mehrwerte werden sowohl aufgrund der sehr hohen Granularität der Daten als auch in deren umgehender Verar- beitung und Erkenntnisgewinnung in Echtzeitgesehen. . Variety Die Vielfalt der zusätzlichen (un- strukturierten) Datenformate, die sich jenseits der üblichen wohl- strukturierten Transaktionsdatenaus Social-Media-Daten, Maschine-zu- Maschine-Kommunikationsdaten, Sensordaten,Webserver-Logdateien etc.ergeben. Diese Daten sind inhaltlich neu, sie sind unstrukturiert, es sind unsagbar viele - die wirklich interessantenIn- formationen darin sind hingegen nur äußerst dünn gesät.Insofern liegt es nahe, sich an das folgende einfache Vorgehensmodellzu halten: 1. GezieltesSammeln der neuartigen Massendaten aus den relevanten Datenquellen ! u"*,* i ;::"::,:"J ffi
  • 2. Abbildung2: VomTwitter-FeedzumBig-Data-ZugriffviaExternalTableim Data Warehouse Abbildung3: BeispieleinesEndeca-Dashboards Werkzeugen zusätzliche Suchfunkti- onalitäten, die den unstrukturierten, textuellen Informationen besser ge- recht werden. Es handelt sich ieweils um Ergänzungen zum Bestehenden, also eher Evolution als Revolution. Eine technische Kernfragelautet, wie die unstrukturierten Massendatenaus Big Data mit derfr Data Warehousever- bunden werden können. Hierzu gibt es seitensOracle mehrere technische Möglichkeiten: . OracleLoaderfor Hadoop Daten aus einem Hadoop-Cluster werden direkt in das Oracle Data Warehousegeladen . Oracle Direct Connectorfor Hadoop HDFS Direkter Zugriff auf das verteil- DataWarehouseE Bl te Filesystem ftir das Oracle Data Warehouse . Oracle Data Integrator (ODI) Appli- cationAdapterpr Hadoop Einbinden eines Hadoop-Jobsin ei- nen ODl-Ladeprozess Abbildung 2 zeigt beispielhaft anhand von Twitter-Nachrichten zwei unter- schiedliche Szenarien,wie sogenann- aut Rohdaten OracleDataWarehouse(Exadata) External Table: HDFS_CAR_SENTIMENT q;,i;i::, .;'1;i 16$ri,:ä#iiill 966;';; Fod Fda 01{t-12 I 2 lnfiniBand Fod F@6 0142-12 24 a O6cle Dlrcct Connoctorfor Fod Fj50 o1{t{2 50 3 Hadoop HDFS Loatis: hdfs_forum-€r_model.toc t gE!,tca , l'Bor{ BDFS_CÄR_SnI!I!CN! ls,*"' "f I gut* cott".t I Roalüme odel | (searctr I hi6tori6ch€ I UserLookup) I O.En r+ Oracle Big Data Appliance H D F S .::itiü:f , I rti':i:1.{,1{ili&$t*!üi{i&i: FodFo601-01-2012 I 2 FordF@@01-02-2012 24 I FodF-1500141-2012 50 3 File: PART-R-0000 ii::1i DOAGNews4-2012| 47
  • 3. Originalsystem (2.8. Datenbank) @ q ! E t o ä l ä i sg ä äF d ' = 3 Q ; l { ö i ä F 6 e ä' o Endeca Index liledlkamentenb$chrelbung (Text) Sinclair I June I E!!t -- iletlormin m,2o1o Metformin was approvedfor use in the U.S. for treatment of type 2 dlabotes in December, 1994. lt ls sold under the brand name Glucophage and is also availablegenerically. Metfomin is appro/ed for trsatnent wilh sulfonylureas, or with insulin, or as monotherapy (by itself). Glu@phage XR Extended Release täblets, a once daily version of metformin,is available. Als. metiorminis availäble... Sulfonylursag "."dtdtt- .4 EF DataWarehouse&Bl Abbildung4: BeispieleinesFacetten-Datenmodells te ,,Social-Media-Daten" in die Big- Data-Infrastruktur einesUntemehmens überfährt und auswertbar gemacht wer- den können. SzenarioL steht dabei für den individuellen Entwicklungsansatz, bei dem die Akquisition der Rohdaten über Twitter-Developer-APls (siehe http://dev.twitter.com) und die Daten- organisation über das Hadoop-MapRe- duce-Entwicklungs-Framework (nicht abgebildet) erfolgt. Alternativ lassen sich heute auch schon Mehrwertdiens- te (Szenario2) in Anspruch nehmen, die per Auftrag TWitter-Datenabzüge aufbereiten und anreichem, indem sie unter anderem den Geo-Bezugherstel- len, den Einfluss der Twitter-Beiträge auf andere per ,,Klout Score" ermitteln oder eine Sentiment-Analyse durch- ftihren. Im Ergebnis werden die rele- vanten Daten (in der Abbildung die RealTime .E(, o o o*, t! o Abbildung5: Big-Data-Anwendungsbereiche: OracleLösungsquadrant 48 | www.doag.org
  • 4. permanenler semistrukturierter Datenstrom SelektiveUbernahme Ubergangin Bestandssysteme Datamart/ Datenausschnift RohdatenoderverdichteteDaten TraditionelleanalytischeAnwendungen Abbildung6:AnalytisclresGesamtszensrio veredelten Twitter-Feeds)als Key-Va- lue-Paarein Dateiform in einem Ha- doop Distributed File System(HDFS) zur weiteren Analyse bereitgestellt. Nutzt man hierzu die Oracle-Big-Data- Infrastruktur in Kombination mit ei- nem Oracle-Data-Warehouse,eröffnet sich dem Analysten ein eleganterWeg des Datenzugriffs per External Tables und SQL(sieheauch I4l). Analysemöglichkeiten Die Akquisition von Endecaerweitert das bisherige Oracle-Business-lntelli- gence-Analyse-Spektrum,indem die textbasierteSucheunstrukturierter In- formationen mit den typischen quan- titativen Bl-Analysen kombiniert und dem Benutzerintuitiv nutzbar präsen- tiert wird. Die Verbindung quantita- tiver und qualitativer Informationen überschreitet die klassischeGrenze von BusinessIntelligenceund kann konzeptionell dem Knowledge Ma- nagementzugeördnetwerden.DerSlo- gan ,,No data left behind" drückt die- sePhilosophietreffend aus.Erweiterte Analyse-Funktionensind zum Beispiel die unternehmensweiteSuche,die Prä- sentationin Form von TagClouds,das datengetriebenedynamische Filtern von Merkmalen und die sogenannte ,,Facetten-Navigation",bei der die Su- che und Auswahl von Attributen wie auf einerWebseitefunktioniert [5]. Abbildung 3 zeigt plastisch Teile dieser neuen funktionalen Möglich- keiten. Es geht um die Analyse eines Twitter-Streams zum Thema ,,Auto Make and Model". In der Guided-Na- vigation-Leiste links sieht man die einbezogenenDatenquellen (iPhone-, Android- und Blackberry-Nutzer)und die weiteren gesetztenFilterkriterien (,,FordFocus").Oben in der Metrik- Leiste wird ausgewiesen,dass in 416 (von ca.350.000Interaktionen)zutref- fende Nachrichten gefunden wurden und sich400 (derca.132.500Benutzer) zu diesemThema austauschen.In den Tag-Cloudswerden besondershäufig verwendete,unterschiedlichePkw-Mo- delle und andereBegriffehervorgeho- ben, wobei die Größe der Schrift zeigt, auf welche Wörter die meisten Treffer kommen. Die bereitserwähnten Mög- lichkeiten zur Anreicherungvon Soci- al-Media-Datendurch,,Klout Scores" und Sentiment-Analysenhelfen dem Analystenbei der Bewertungder Twit- ter-Beiträge,etwa in Form zusätzlicher Metriken oder weiterer Attribute für die gefuhrte Suche im Datenbestand. Schließlich finden sich unten weitere Statistiken,die zusätzlichenkorrespon- dierendenInhalt enthalten können. Bevor es zur fachlichen Analyse kommen kann, sind die Daten aufzu- bereiten, gegebenenfallszu verknüp- fen sowie anzureichern.Neben klassi- schen ETl-Funktionen gibt es seitens Endeca ein erweiterbares Content- Acquisition-System(CAS) für die Da- ten-Integration von Hunderten von Dateitypen, Dokument-Repositories, CMS-Systemen,Webinhalten und RSS- Feeds.CAS kann sowohl Dateiserver als auch Twitter, Facebook& Co. ana- I DOAGlVeyrs1-2012 49
  • 5. DataWarehouseE Bl lysieren.Jedesunstrukturierte Attribut kann verarbeitetund um weitereInfor- mationen angereichertwerden.Gängi- geTechniken sind: . Automatic Tagging . Named Entity Extraction . Sentiment Analysis . Term Extraction . GeospatialMatching Die unstrukturierten Daten können mit anderen Datensätzenüber einen beliebigen Schlüsselmiteinander ver- bunden werden. Natürlich können auch strukturierte Daten mit diesen unstrukturierten Daten im Rahmen des ETl-Prozessesverknüpft sein. Da- bei wird keine feste analysefokussier- te Datenmodellierung betrieben - wie im Data Warehousein Richtung Star- oder Snowflake-Modell in Form von fest verknüpften Tabellen üblich -, sondern die Dimensionen werden alle gleichberechtigtnebeneinanderin ein Modell gelegt. In der Praxis existie- ren Analyse-Modelle mit mehreren Hundert Dimensionen. Aus fachlicher Sicht eröffnen sich sounendliche Ana- lyse-Möglichkeiten. Abbildung 4 ver- anschaulicht die Idee deshochdimen- sionalenFacetten-Datenmodells. DiePraxis Big-Data-Projekte sind kein Selbst- zweck. Die neue Technik ist reizvoll, aufgrund desnotwendigen Spezialwis- sensund der sehr großen Datenmen- gen (Hardware-Bedarf)aber durchaus kostenintensiv. Daher ist es erforder- lich, die fachlichen neuen Möglich- keiten, die sich ausBig-Data-Analysen ergebenkönnen, nüchtern zu bewer- ten. Daskann nur jedesUnternehmen selbstanhand seinerAnwendungsfälle tun. In Anlehnung an [6] zeigt Abbil- dung 5 eine Gegenüberstellungeiniger Big-Data-Anwendungsbereicheund des Oracle-Lösungsangebotszu Big Data und DataWarehousing. Unter wn w.doag.org/go/doagnews/ erb_tabellesind beispielhaft fünf aus- gewählteUseCasesvorgestelltund ihre Komplexität sowie deren Geschäfts- nutzen bewertet. Quellenverzeichnis [1] McKinsey Global Institute: Big Data: The next frontier for innovation, competi tion, and productiviry Report, May 2011: http: i /www.mckinsey. com/Insights/MGI/ Research/Technology_and_lnnovation/Big_ data_The_next_frontier_for_innovation [2] Carsten Czarski,Big Data: Eine Einführung, Oracle Dojo Nr. 2, München 2O72: http:ll www.oracle. com/webfolder/technetwork/ de/community/dojo/index.html [3| Cackett,D./Bond, A./Lancaster,K./Leiker,K., Enabling Pervasive BI through a Practi- cal Data Warehouse Reference Architec- ture, An Oracle White Paper,Februar2010: http://www.oracle.com/us/solutions/data- warehousing/058925.pdf [4] Günther Stürner, Big Data - Hype und Wirklichkeit, Vortrag auf dem Führung- skräfte-Forum,,Ergebnis-und wirkungsori- entierte Steuerung" des Behördenspiegels: http ://www.fuehrungskraefte-f orum.de/? page_id=1617 [5] Mark Rittman, Where Does Endeca Fit with Oracle BI and DW?, 22. Februar2072, http://www.rittmanmead. com I ZO12I 02I oracle-endeca-week-where-does-endeca-fit- with-oracle-bi-dw-and-epm/ [6] Ravi Kalakota, Big Data Analytics Use Cas- es, 12. Dezember 2011: http://practicalana- lltics.wordpress.com I 2O71,I 12I 12 lbig-data- analytics-use-cases [7] TU München, o.V., Neuer Krebsauslöserin Pommes frites entdecku scinexx - Das Wis- sensmagazin,19.August 2008, http://wn'w.g- o.de/wissen-aktuell-8686-2008-08-19.html [8] o.V.:Bei Twitter hat Obama im Wahlkampf die Nase vorn, in Westdeutsche Allgemeine Zeitung Online, 3. Januar 2012, http:ll www.derwesten. de/wirtschaft/digital/bei- twitter-hat-obama-im-wahlkampf-die- nase-vorn-id6210915.html [9] o.V.: Neue Umsatzsteuer soll Betrug vor- beugen, in Frankfurter Allgemeine Zeitung Online, 20. Oktober 2005: http://rvww.faz. net/aktuell/wirtschaft/wirtschaftspolitik/ h aushalt- neu e-um satzsteu er-sol I-betrug- vorbeugen-1282702.html Oliver Röniger oliver.roeniger@ oracle.com Harald Erb harald.erb@ oracle.com Firmenmitglieder DirkFleischmann,cubusBlSolutionsGmbH WolfgangHack,dimensioInformaticsGmbH VolkerOboda,DMySQLAGe.V MartinBöddecker,mbSupportGmbH HansHaselbeck,EMPIRIUSGmbH UweSchreiber WolfgangMichaelGirsch ChristaWeckman ThomasKrahn MarcoStroech WoltgangBossmann ChristophMecker CorinnaKerstan GerhardSchaefet MichaelTucek RüdigerZiegler ErikaKrüger AndreasKoop UlrichGerkmann-Baftels ManfredDrozd ChristophQuereser AndreasRernhardt MarkusVincon Wir begrül3enunsereneuenMitglieder PersönlicheMitglieder NorbertKossok DirkWemhöner AlexandraStrauß ThomasEwald-Nifkiffa KevinBrych joachimEngel ThorltenGrebe MartinBernemann JosefRabacher 50 | www.doag.org
  • 6. Nr; Baänchä Anäly5ö:fokUs...., 1 Pharmaproduzent Produktpositionierung 2 Automobilhersteller qualitätssicherung 3 Verbraucherschutz Gefahreneinschätzung,Aufklärung 4 PolitischeParteien Wahlkampagnen 5 Steuerfahndung Betrugsermittlung Tabelle1: AusgewählteBig Ddta UseCases Tabelle2: UseCase,PharmaProfuum{ Tabelle3: UseCase,Automobilhersteller" fia$eställun9, wirdunserneues'PräparatpositivindeiöffentlithkeitbesProchen? Analyseziel Sentiment-Analyse,Habenwir mehrals70ProzentZustimmung? Informationsquellen Webseitenausgewählterpharmazeutischey'medizinischerForenundinternationalerFachzeitschrif- ten TwitterstreamsausgewählterMeinungsbildner Integrationsbedarf AusdemDWHwerdenwöchentlichdieAbverkaufsdatennachRegionenalsVergleichsmaßstab bereitgestelltsowiedieaktuellenKampagnenkostenaufgefächertnachKanal Komplexität Gering Zyklus BeschränkterBeobachtungszeitraum Nutzen ErfolgskontrolleundgegebenenfallsNeuausrichtung/FokussierungderkostenintensivenMatketing- Aktivitäten $i,agestellung, W6..weadeü.'.te$nis{heiAilähü$l:.gämef:deti,,deräh,,,küffiistig€:::6*üaka;mibimO..!*.Uerlau{enden Fiodüktiiöni..;täte-:.gäEehänfnlls,,notweödigä;r:rkoit€rrintenatu€::Rürkufaktionen,:iowie:,|:mä:gä: schädenVermeiaenhitttr i , Analyseziel Qualitätsmanagementin derProduktion,Frühwarnung Informationsquellen WebseitenausgewählterKfz-Foren WerkstattberichtederVertragshändler lntegrationsbedarf IntegrationderErkenntnisseerfolgtnachträglichin dasbestehendeDataWarehouse,bestehende qualitatserfahrungenausderVergangenheitwerdenzumVergleichgenutzt Komplexität Mitrel Zyklus laufendeAnalyseim erstenProduktionsjahrdesModells Nutzen [eichtrechenbaranhanddertäglichenProduktionskapazitätmultipliziertmit dennachträglichen Fehlerkorrektur-Kostenprowerktück.JederTag,dereherzurProblembehebungführt,refinanziert direktdasAnalyse-Projekt.
  • 7. riägast€llüng: ,,Forscherhabenin Kartoffel-ChipsundFommesfriteserstmalseinö,,.Substänzdlrektnathgewleien, die,noch,,üiei,::gefähilicher:iit,,af*,,Acrtlämid::::Dä,s::as::gerräfihter6lycidräm]d:::en!{!qht...ebirnfälts tfhi&n::'ünil|Ka*u+tätpigo*t<ren...und:.steht..im:ir'ei#tht::5rki:*idbi.:idiid Analyseziel WofindensichwissenschaftlicheGutachtenundBerichtezuclycidamid,internundextern?Wofinden sichAnhaltspunktedazuin unserenvorhandenenMessdatenausderPraxis? Informationsquellen WebseitenausgewählterFotenundinternationalerFachzeitschriften [aborberichteausdenl-aborsystemenderlebensmittelüberwachungs-BehördeneinesBundeslandes undderKommunen EigenesDokumenten-ManagementsystemundgegebenenfallswissenschaftlicheBibliotheken Integrationsbedarl Oftexistiertin VerbraucherschutzministerienkeinumfassendesDWH,dortwirdaufgrundderTextorien- tierungbislangehermit Dokumentenmanagementsystemengearbeitet Komplexität Mittel- eherEnterpriseSearchalsechteAnalyse Zyklus EinzelfallbezogeneAnalysen,je nachDringlichkeitkurzfristignotwendig Nutzen DieQuantifizierungdesNutzensin Geldeinheitenfällt hierschwer.DergesellschaftlicheAuftragver- langt intensivenEinsatz,dieBevölkerungmussaktivinformiertwerden. Tabelle4: UseCase,,Verbraucherschutzministerium" Tabelle5: UseCase,,PolitischeParteien" Tabelle6: _Use Case,,Starcrfahndun{ riagesiälfüa( rEezag:en:::ä|Jf::pofititffier::älEtüälte,themen{wiu,,Gunmäi5,,,Ätomä,usities;::ACrA):::ioll:::ein::5limrnüngsbild, ,,DieamerikanischenFiaiiaentschäitsbeweöernützenfui ihrekarnpägnenäüsgiebigdenKuit näihiithtenUienst,,rwiftef,,,Sie,,*erwäisen,äuf,,lhre,,,FpEary11e",,,erz"ihlea:::tirn:::ih,,@enmdä,,,orIer danken.füiei*eh;..nättcn;;;Empfän'i::A|:leidio9i...si.nd..nid*::ä:}|c::9|aid}::in Analyseziel Sentiment-AnalyseWelchePositionistmehrheitsfähig?wie verändernsichMeinungendergleichen Wählerim Zeitablauf(zumindestbisauf Regionenheruntergebrochen)? Informationsquellen WebseitenausgewählterpolitischerForenundvonTages-/WochenzeitensowieNachrichtenagenturen TwitterstreamsausgewählterMeinungsbildner WettbewerbsbeobachtungderanderenParteien IntegrationsbedarfKeineIntegrationzuvorhandenenlT-Systemennotwendig Komplexität 6ering Zyklus Einzelthemenwerdenim Zeitablaufbeobachtet Nutzen Bereits2008hat BarackobamaseineKampagnenim Präsidentschaftswahlkampfsehrstarkmittelsder neuenMediengeführtundauchSpendengesammelt.DerErfolgistbekannt. iFiä:geitellung 0ürctr,::ÜfüiätistäüäflKäiuiiöfrlääatstehän.tähitith::s$ä:dänr:rln1Iöhä,,von,,4,5:iafd;::Eüfö:r:lnrroäüts$läöd [9]i Händlererhaltenumsatzsleüereibtattung,en,obwohlkeinewäiän:rCätin Cesertrtengeherge- , stelltundvertriebenwurden.DieseBetrugriättegitiesiut uOeitäÄ.',' Analyseziel ldentifizierungderHändler-NetzwerkeundihrerScheingeschäfte.DasgelingtdurchSocialNetwork Analysis(SNA),in derdieverdächtigenHändleralsKnotenmodelliertundihrZusammenwirkenim Netzwerkuntersuchtwirc. Infotmationsquellen MassendatenausderUmsatzsteuererstattung Jahresabschlussdaten,alleEinnahmen/Ausgaben(Rechnungen)undGeschäftsbeteiligungenvonver- dächtigenHändlern Integrationsbedarf DieTransaktionsdatenundHändler-Stammdatenkommenausdem DataWarehouse,dieanderenDaten derHändlerwerdendamitverknüpft Komplexität Sehrhoch,nahtloserÜbergangzuDataMining Zyklus MonatlichesScreening,dannfallweisesBearbeiten Nutzen DerNutzenerrechnetsichunmittelbarausdenaufgedecktenFällen:AlleineingrößererFallrechtfertigt kostenseitigbereitsdasGesamtprojekt.