SAS Forum Switzerland 2015: Big Data - Guido Oswald

SAS & Hadoop – das passt!
Guido Oswald ( @guidooswald )
www.sasforum.com/ch

WO FÄNGT BIG DATA AN?!
Wenn Excel explodiert?
Wenn ich meine “Comfort-Zone” verlasse?
Sobald ich unstrukturierte Daten habe?
Alles über 1TB?
Die drei Vs?

BIG DATA IST WIE TEENAGER LIEBE?
Jeder redet darüber – keiner weiss wie es
geht aber jeder denkt der andere macht es
– also behauptet jeder er macht es auch

HADOOP THE CUTE ELEPHANT

WARUM IST HADOOP INTERESSANT?
SKALIERBARKEIT
LEISTUNGSSTARK
PREISWERT - open source
VERTEILTE VERARBEITUNG
DATENREDUNDANZ
HANDELSÜBLICHER SERVER

 Hadoop wird sehr bald ein(e) Ersatz Ergänzung sein zu:
 Business Intelligence;
 Data Warehousing;
 Data Integration;
 Analytics.
QUELLE: 10 Myths About Hadoop - TDWI Best Practices Report
HADOOP IN BETRIEB:
 Grund #1 um Hadoop einzusetzen:
Analytics (71%)
 Herausforderungen beim Einsatz von Hadoop:
 Hadoop hat keinerlei eingebauten,
analytischen Funktionen.
 Kosten: kostspielig aufgrund umfangreicher, eigengestrickter Lösungen.
HEUTE
< 12
MONATE
< 24
MONATE
< 36
MONATE
3+
JAHRE
NIE
10%
WARUM IST HADOOP INTERESSANT?

WARUM SAS?
IN-MEMORY
HIGH-PERFORMANCE
ANALYTICS
BUSINESS INTELLIGENCE
VISUALISIERUNG
DATA MANAGEMENT

SAS & HADOOP GRÜNDE FÜR DIE KOMBINATION BEIDER WELTEN
 High-performance Advanced Analytics;
 Business Intelligence und Data Visualization;
 Massiv skalierbar, auf verteilter, handelsüblicher Hardware

ERA OF
ABUNDANCE
“BIG DATA” – DATEN IM ÜBERFLUSS

ERA OF
ABUNDANCE
“HADOOP”

ERA OF
ABUNDANCE
“ANALYTICS”

ERA OF
ABUNDANCE
“ANALYTICS”
Überfluss an
Daten
Verabeitungs-
Leistung Intelligenz

BIG DATA
ANALYTICS
BAUSTEINE VON USE CASES
Kunden
Haushalte
Konten
Salden
Produkte
Historie
…
…
GAA + SB Terminal
Online Banking
Mobile Apps
Kooperations-Partner
Beschwerden
Web & Social
Presse
Bilanzen / XBRL
…
…
Mustererkennung
Korrelationen
Prognosen
Text Analytics
…
…
In-Memory
Hadoop
SAP HANA
…
…
Bekannte Daten
(DWH)
Neue, unbekannte
und ungenutzte Daten
Analytik
Technologische
Enabler

DETOUR…

Company Confidential - For Internal Use Only
Copyright © 2015, SAS Institute Inc. All rights reserved.
BIG DATA LAB
FINDEN SIE MIT SAS IHRE BIG-DATA-STRATEGIE

BIG DATA
VORGEHEN
TRADITIONELLER PROJEKTANSATZ
Business
Case
Management
Entscheidung
Budget
Freigabe
Team
aufsetzen
Tool Auswahl
Infrastruktur
aufbauen
Daten akquirieren Modelle erstellen
Produktion
vorbereiten
Test Go Live
Idee Ergebnis
Anforderungen

Innovation
Lab
Innovation
Lab
BIG DATA
VORGEHEN
INNOVATION LAB: AGIL – RISIKOARM – SKALIERBAR
Business
Case
Management
Entscheidung
Budget
Freigabe
Team
aufsetzen
Tool Auswahl
Infrastruktur
aufbauen
Daten akquirieren Modelle erstellen
Produktion
vorbereiten
Test Go Live
Idee Ergebnis
Big Data
Lab
Modelle verfeinernDaten aktualisieren

SAS ANGEBOT BIG DATA LAB
TECHNOLOGIE SERVICE
Größenskalierung
S M L
Bereit-
stellung
On-
Premise
Cloud
Datenmanagement
► Data Loader for Hadoop
► Access to Hadoop
► Metadatenmanagement
Analytics
► Visual Analytics
► Visual Statistics
► In-Memory Statistics
Software-
Lösungen
► Installation
► Konfiguration
► Training
► Umsetzung eines beispielhaften
Use Cases
Zusätzlich buchbare Dienstleistungen:
► Coaching und Bereitstellung von
Experten (Data Scientist, Daten-
Management-Experte)
► Consulting
Einsatzfertiges
Komplettpaket für die
selbständige
Entwicklung von
Big Data Use Cases
zum Fixpreis

ZURÜCK ZUM THEMA..

SAS & HADOOP SAS® UND DAS HADOOP ECOSYSTEM
Next-Gen
SAS
®
User
SAS
®
User
User
Interface
Metadata
Data
Access
Data
Processing
File
System
SAS Metadata
In-Memory
Data Access
HivePig
Map Reduce
HDFS
Base SAS & SAS/ACCESS® to Hadoop™
In-Memory
Data Access
HivePig
SAS® Data
Management
SAS® Visual
Analytics
SAS® Visual
Statistics
SAS®
Enterprise
Miner™
SAS®
Studio
SAS® LASR™ Analytic
Server
SAS Embedded
Process
SAS® In-memory
Statistics for
Hadoop

MAP REDUCE A (SIMPLE) WORD COUNT…

Hadoop kann
sehr schnell
sehr komplex
werden!

HADOOP
ECOSYSTEM
KOMPLEXITÄT REDUZIEREN
Pig (Skriptsprache)
Hive (SQL)
Cloudera Impala
Proc Hadoop (BASE SAS)
SAS ACCESS to Hadoop
SAS ACCESS to Impala

SAS DATA LOADER
FÜR HADOOP
Self-service Big
Data Aufbereitung
für Fachanwender
Certified by Hortonworks and Cloudera

SAS & HADOOP WIE?
SAS & Hadoop verbinden sich auf verschiedene Weise:
 SAS kann Hadoop wie jede andere Datenquelle behandeln und
Daten von (FROM) Hadoop lesen, wenn dies der geeignete Weg
ist.
 SAS kann mit (WITH) Hadoop arbeiten und Daten in eine
spezialisierte ‘advanced analytics’ In-Memory-Umgebung heben.
 SAS kann direkt in (IN) Hadoop arbeiten und die Fähigkeiten der
verteilten Verarbeitung von Hadoop nutzen.




FROM
SAS & HADOOP SAS FROM HADOOP
SAS hat Zugriff auf und schickt Daten von Hadoop zu
einem SAS Server für die Verarbeitung. Ergebnisse
warden zurückgeschrieben.
 Eine Brücke wird von Hadoop zu existierenden SAS Umgebungen gebaut.
 Hadoop wird genutzt als eine weitere Datenquelle.
 Leistungsfähigkeit ist auf die Bandbreite einer ‘single pipe’ begrenzt.
 Ideal für Fälle, wenn sich nicht alle zu analysierenden Daten in Hadoop
befinden oder wenn ein etablierter Prozess nicht in Hadoop ablaufen
kann.
DATA MOVEMENT

WITH
SAS & HADOOP SAS WITH HADOOP
SAS greift auf Daten in Hadoop zu und verarbeitet diese auf
einem SAS Server, während die Daten selbst und die
Berechnungen massiv parallelisiert werden.
 Stellt Fähigkeiten zur Verfügung, die Hadoop nicht gut selbst erledigen kann.
 Unterstützt ‘Advanced Analytics’ durch geteilte Verarbeitung.
 Erlaubt es, die Datenhaltung und die Verarbeitung der Analyse getrennt
voneinander zu skalieren.
 Ideal für Fälle, in denen analytische Genauigkeit, Ausgereiftheit der
Algorithmen und Überwachung (Governance) benötigt werden.
DATA LIFT INTO MEMORY

IN
SAS & HADOOP SAS IN HADOOP
SAS verarbeitet Daten direkt im Hadoop Cluster.
SAS LOGIC
 Der SAS ‘Embedded Process’ ermöglicht skalierende Berechnungs-Leistung in
Hadoop .
 SAS rechnet in Hadoop und fein abgestimmt durch Hadoop-Technolgie.
 Unterstüzung für Daten-Transformation, Datenqualität und ‘Scoring’ in Hadoop.
 Ideal, wenn alle Daten in Hadoop gehalten warden und Hadoop der
richtige Ort für die Verarbeitung darstellt.

SAS & HADOOP SAS IN HADOOP
SAS verarbeitet Daten direkt im Hadoop Cluster.
 Der SAS ‘Embedded Process’ ermöglicht skalierende Berechnungs-Leistung in
Hadoop .
 SAS rechnet in Hadoop und fein abgestimmt durch Hadoop-Technolgie.
 Unterstüzung für Daten-Transformation, Datenqualität und ‘Scoring’ in Hadoop.
 Ideal, wenn alle Daten in Hadoop gehalten warden und Hadoop der
richtige Ort für die Verarbeitung darstellt.
 SAS In-Memory-Lösungen können auch direkt im
Hadoop-Cluster auf geteilter Infrastrukutr installiert werden.

DER PRAGMATISCHE ANSATZ
Prepare data IN
Hadoop for
analytics
Move data FROM
Hadoop into a SAS
environment
Deploy and manage
model score code
IN Hadoop
Lift data IN to
memory for analytics
at scale
Model data at scale in-
memory WITH advanced
modeling tools
Use the
right
approach
for what
needs to be
done!
Explore data at scale, in-
memory WITH data
visualization
SAS & HADOOP

ROGERS MEDIA
 Data visualization & high performance analytics
 Processing data on 12 million customers
 40 million records per month in Hortonworks
 More than 600 relevant web characteristics
“Several of us from Rogers in
the room looked at each
other, and said ‘That is really
wicked; that’s cool.”
Chris Dingle
Senior Director of Audience Solutions
Rogers Communications

MACY’S
 20% reduction in churn
 $500,000 annual savings
 Customer lifetime value analysis
 More accurate response prediction
 Optimized promotions
“... they can look at data and
spend more time analyzing it
and become internal
consultants who provide more
of the insight behind the
data.”
Kerem Tomak
Vice President of Analytics

www.sasforum.com/ch
Guido Oswald (@guidooswald) – Guido.Oswald@sas.com

SAS Forum Switzerland 2015: Big Data - Guido Oswald

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie SAS Forum Switzerland 2015: Big Data - Guido Oswald

Ähnlich wie SAS Forum Switzerland 2015: Big Data - Guido Oswald (20)

SAS Forum Switzerland 2015: Big Data - Guido Oswald

Hinweis der Redaktion