Webinar Big Data - Enterprise Readiness mit Hadoop

www.fun.de
Machen Sie mehr aus Ihren Daten
www.fun.de
Machen Sie mehr aus Ihren Daten!
Aus unserer Webinarreihe Exzellenz in Big Data:
Aus unserer Webinarreihe
Exzellenz in Big Data:
Wie kann ich Hadoop in meinem Unternehmen einsetzen und sicher betreiben?
Uwe Neumann, Senior Sales Manager
„Enterprise Readiness mit Hadoop“

www.fun.de
www.fun.de
www.fun.de
Uwe Neumann
Senior Sales Manager
uwe.neumann@fun.de
+49 721 96448-165
Michael Weiß
Prokurist, Vertriebsleiter
michael.weiss@fun.de
+49 721 96448-145
Ihre Ansprechpartner

www.fun.de
www.fun.de
www.fun.de
Unsere Ziele heute
•Verstehen: Was ist Hadoop ?
•Erkennen: Hadoop bringt mir Mehrwerte in meinem Business
•Verstehen: Welche Plattformen sind für Hadoop geeignet
•Erkennen: Hadoop ist im professionellen Umgang eine Chance

www.fun.de
www.fun.de
www.fun.de
3
4
„Data Exploration Toolbox“ für die Automotive Industry
„Big Data im Industrie 4.0 – Kontext“
2
„Enterprise Readiness mit Hadoop“ – Infrastrukturen für Big Data
Heute:
27.11.14
Exzellenz in Big Data
Unsere Big Data Webinarreihe
16.01.15

www.fuwnw.wdwwew ..ffuunn.d.de e Machen Sie mehr aus Ihren Daten Machen Sie mehr aus Ihren Daten!
1
Log Management
2
Analyse-Lösungen für
Maschinen Daten
Unser Know-how
Unabhängiges
Beratungs- und
Lösungshaus für
3
Industrie 4.0 & Big Data
Anwendungen

www.fun.de
www.fun.de
www.fun.de
Solides Fundament
Die solide Basis für IT-Infrastruktur
Enterprise ready
Offene Standards für Interoperabilität
Hohe Performance
Mandantenfähig
Security & Compliance
Betrieb & Analyse
Neue Anwendungen Vertrauenswürdige Informationen Wertvolle Erkenntnisse
SLAs
Kostengünstig
Die Basis für den Erfolg Ihres Unternehmens

www.fun.de
www.fun.de
www.fun.de
Hadoop speichert jede Art von Daten, analysiert und transformiert
Was ist Hadoop?

www.fun.de
www.fun.de
www.fun.de
… Daten
in kleinere Teile aufbricht und diese in einem Server-Cluster zur Parallel-Verarbeitung verteilt
namenodes
datanodes
hdfs client
Node Metadata
Anwendung
Was ist Hadoop ? Ein Open Source Framework welches …
Daten
… datenintensive Anwendungen unterstützt
… große, strukturierte wie unstrukturierte Daten auf einer Vielzahl von Knoten bearbeitet.

www.fun.de
www.fun.de
www.fun.de
Teilt Dateien in kleinere Blöcke Standardeinstellung ist 64MB Blockgröße
 Reduzierte Suchzeiten
HDFS repliziert automatisch die Datenblöcke auf unterschiedliche Server
 Ausfallsicherheit
Basiert auf einem typischen Liunx Filesystem
 Investitionssicherheit
Die Kernelemente von Hadoop HDFS – Hadoop Distributed File System

www.fun.de
www.fun.de
www.fun.de
Speichert Blöcke von Dateien auf dem nativen Filesystem
Bedient direkt die Schreib-/Lesezugriffe des Clients
Führt die Block Erzeugung, Löschung und Duplizierung aus und speichert den gleichen Block mehrfach
 Redundanz
Führt die Berechnung auf den einzelnen Blöcken aus
 Parallele Bearbeitung
Die Kernelemente von Hadoop HDFS – Datenknoten - datanode

www.fun.de
www.fun.de
www.fun.de
Koordiniert die Daten Speicherung
Verwaltet die Dateitabelle (namespace)
Speichert alle Metadaten im RAM
Weist den Datenknoten die Blöcke zu
Koordiniert die Replikation der Datenblöcke
Die Kernelemente von Hadoop HDFS – namenode

www.fun.de
www.fun.de
www.fun.de
Bringt die Anwendung zu den Daten …
Verteilt die Bearbeitungsaufgaben (Tasks) auf die datanodes.
Steuert die Auslastung der Rechenkapazitäten
Bringt bei Ausfall eines datanodes seine Tasks automatisch auf einen anderen Knoten
Ermöglichst somit die parallele Datenverarbeitung im Cluster
Die Kernelemente von Hadoop Hadoop – job tracker

www.fun.de
www.fun.de
www.fun.de
Ein Einblick in eine auf Hadoop basierte Data Management Plattform
Quelle
DATEN ZUGRIFF
Data Workflow, Lifecycle & Governance
Falcon
Sqoop
Flume
NFS
WebHDFS
GOVERNANCE & INTEGRATION
SICHERHEIT
Authentication
Authorization
Accounting
Data Protection
Storage: HDFS
Resources: YARN
Access: Hive, …
Pipeline: Falcon
Cluster: Knox
Provision, Manage & Monitor
Ambari
Zookeeper
Scheduling
Oozie
BETRIEB
Script
Pig
Search
Solr
SQL
Hive/Tez, HCatalog
NoSQL
HBase
Accumulo
Stream
Storm
Others
Spark, In- Memory,
ISV engines
DATA MANAGEMENT
1
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
N
HDFS (Hadoop Distributed File System)
Batch
Map Reduce
YARN: Data Operating System

Viele Mitarbeiter greifen
auf unterschiedliche
Systeme zu
Historisch gewachsene
Systemlandschaft
und Spezialsysteme
Silos mit vielfältig
strukturierten und
unstrukturierten
Daten
EDWs Marts Servers Documents Storage Search
ERP, CRM, RDBMS, Machines Bilder, Videos, Streams Externe Daten
Archives
Produktion
Management Controlling Vertrieb Produktion Logistik Analyse
Quelle:
Die Big Data Herausforderung
in herkömmlichen Systemen

EDWs Marts Documents Storage Search
ERP, CRM, RDBMS, Machines Bilder, Videos, Streams Externe Daten
Archives
Produktion
Management Controlling Vertrieb Produktion Logistik Analyse
Aktives, einheitliches Archiv
• Vollständige Originaldaten
• Unbegrenzte Zeit, jede Quelle
Niedrige Speicherkosten
Persistente Datenhaltung
• Eine Datenquelle für jedwede
Analyse
• Schneller und kostengünstiger
Self-Service BI
• Einfache Such- und BI-Tools
• Reduziert Anfragen an die interne
IT
Vielfältige Analyse Plattform
• Bringt die Anwendung zu den
Daten
• Echtzeit Analytik
Quelle:
Der neue Weg:
Die Anwendung zu den Daten bringen

www.fun.de
www.fun.de
www.fun.de
Hadoop ist eine der kostengünstigsten Big Data Plattformen
Hadoop ist für alle Arten von Daten geeignet
4
Value
Hadoop verarbeitet beliebig große Datenmengen
3
Volume
!
2
Variety
?
Hadoop skaliert linear mit der Anzahl der Datenknoten
Velocity
1
Warum Hadoop? Unterstützt die vier Kernaspekte von Big Data

2
3
… bieten professionelle Wartungspakete und
Support
1
… liefern validierte, Enterprise-fähige
Distributionen und sind international vertreten
… entwickeln zusammen mit der OpenSource
Community Hadoop ständig weiter
Welches Hadoop?
cloudera und Hortonworks …

www.fun.de
www.fun.de
www.fun.de
Preisgünstige Plattform in Hinsicht TCO (Total Cost of Ownership)
Anschaffungskosten
Kosten für Installation und Validierung
Kosten für Betrieb und Wartung
Welche Hardware für Hadoop? Grundanforderungen
Auf aktuelle Hardware setzen
Hochverfügbarkeit
Redundanz aller Komponenten (Netzteile, Switches etc)
Namenodes immer redundant auslegen
Mit der Anzahl der Datenknoten steigt die Fehlertoleranz

www.fun.de
www.fun.de
www.fun.de
Grundanforderungen an die Hardware
Grundanforderungen
Typische „Enterprise class“ Server
Ausgelegt für Hochverfügbarkeit und Betriebssicherheit
Die Mehrkosten hierfür sind gerechtfertigt, da nur wenige Rechner dieser Klasse benötigt werden
Master
z.B namenode
Slaves
z.B. datanodes
Grundanforderungen
Standardserver von namhaften Herstellern
Kein Auslegung auf Hochverfügbarkeit
Jedoch: Möglichst hohe I/O pro Sekunde
Ausfallsicherheit wird durch Software abgebildet

www.fun.de
www.fun.de
www.fun.de
Beispiel für konkrete Hardware für Hadoop „einzelne Rechenknoten“ mit lokalem Storage
Cisco Rackserver
2 CPU “sandy bridge”, 128 GB RAM, 8 * HDD 2,5” 1TB SATA, 2 * 10 Gbit NIC
Speicherkapazität [DAS] pro Server
8 TB brutto, RAID 0, n=3 2,66 TB ‘netto’
100 I/Os pro HDD, n=3 266 I/Os pro Server
Speicherkapazität gesamt
2,66 TB * 4 == 10,64 TB
266 I/Os * 4 == 1064 I/Os
1 Namenode [Management Server]
4 Datanodes mit Festplatten [DAS]
Quelle

www.fun.de
www.fun.de
www.fun.de
Cisco Rackserver
2 CPU “sandy bridge”, 128 GB RAM, 1 * HDD 2,5” 1TB SATA, 2 * 10 Gbit NIC
Speicherkapazität [NetApp E5560] gesamt max Ausbau 60 HDD
30 * 2 TB 60 TB brutto, n=2, 24 TB ‘netto’
300 I/Os *4 == 1200 I/Os gesamt
Speicherkapazität [LUN] pro Server
15 TB brutto, RAID 5, n=2 6 TB ‘netto’
300 I/Os pro Server
Beispiel für konkrete Hardware für Hadoop „einzelne Rechenknoten“ mit Storageeinheiten
1 Namenode [Management Server]
4 Datanodes mit zentr. Storage
Quelle

www.fun.de
www.fun.de
www.fun.de
Hadoop storage mit E-series
Hohe Speicherdichte u. Kapazität
180TB in 4 Höheneinheiten
Geringe Standfläche
Replikationsfaktor von 2 statt 3
Geringere Netzwerk-Last
Besserer Durchsatz
Hochverfügbarkeit für Hadoop
Zuverlässiger NameNode
Schnellere cluster recovery
Eine konkrete Hardware für Hadoop NetApp Solutions for Hadoop
Quelle

Wächst mit Ihren
Anforderungen
Maximale Flexibilität: Die Unified Architektur stellt sicher, dass der FlexPod
auch in bestehende IT-Umgebungen eingebunden werden kann.
RZ konforme BigData
Analytics Plattform
Skalierbare und
hochverfügbare
Architektur
Schnelle, risikolose
Implementierung
Optimierter und
standardisierter Betrieb
24x7 Hotline für
Gesamtinfrastruktur
Alle Komponenten sind perfekt aufeinander
abgestimmt
Schneller beschafft
Schneller implementiert
Geringerer
Managementaufwand
Eine Hotline für alles
Modulare
Referenzarchitektur –
“Building Blocks” passen
immer optimal zusammen
FlexPod Select =
Speziell optimiert für
Big Data Workloads
Mehr Betriebssicherheit mit
weniger Aufwand
Plug and Play für Ihre Hadoop Installation
NetApp Flexpod Select

http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.1-
latest/bk_cluster-planning-guide/content/ch_hardware-recommendations.
html
http://www.netapp.com/us/media/ar-esg-netapp-open-
solution.pdf
http://www.cloudera.com/content/cloudera/en/re
sources/library/whitepaper/evaluating-hardware-platforms-
for-cloudera.html
Mehr zum Thema „Hardware für Hadoop“

www.fun.de
www.fun.de
www.fun.de
Und was mache ich damit … ? Analytics Tools … eine Auswahl
3rd Party Tools
Pentaho
Talend
R
KNIME
Informatica
SAS
Hunk
Rapidminer
Hadoop Tools
Hive, PIG, Mahout …
Quelle

2
3
Industrie 4.0
1
Leistungsfähige Big Data Infrastruktur und
Innovative Speichertechnologie
Enterprise fähige Hadoop-Distributionen
Unsere Partner für Ihren Erfolg
Infrastruktur, Big Data Technologie und Know How
Fraunhofer IOSB-INA
Anwendungszentrum Industrial Automation
Lemgo

Weg frei für Ihre Big Data Infrastruktur
Konkreten Usecase
wählen
Präsentations-termin
der geplanten
Vorgehensweise
Mit allen Beteiligten
Abteilungen
Workshop und
gemeinsame
Durchführung
Proof of Concept
Businesscase/
Durchführbarkeit
Umsetzung /
Produktiv
1 2 3 4 5

www.fun.de
www.fun.de
www.fun.de
Exzellenz in Big Data – coming next
3
3. „Data Exploration Toolbox“ für die Automotive Industry
Unsere Big Data Webinarreihe
4
„Big Data im Industrie 4.0 – Kontext“
2
2. „Enterprise Readiness mit Hadoop“ – Infrastrukturen für Big Data
Heute:
27.11.14
16.01.15

www.fun.de
www.fun.de
www.fun.de
Uwe Neumann
Senior Sales Manager
uwe.neumann@fun.de
+49 721 96448-165
www.fun.de
Michael Weiß
Prokurist, Vertriebsleiter
michael.weiss@fun.de
+49 721 96448-145
www.fun.de

Webinar Big Data - Enterprise Readiness mit Hadoop

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie Webinar Big Data - Enterprise Readiness mit Hadoop

Ähnlich wie Webinar Big Data - Enterprise Readiness mit Hadoop (20)

Webinar Big Data - Enterprise Readiness mit Hadoop