Im Webinar Enterprise Readiness mit Hadoop - Infrastrukturen für Big Data wird unter anderem Hadoop als etablierte Basis-Technologie für Industrie 4.0 und Big Data-Anforderungen beleuchtet. Erfahren Sie, wie Ihre Infrastruktur für die Verarbeitung und Analyse großer und polystrukturierter Datenmengen aus unterschiedlichen Quellsystemen aufgebaut sein muss.
Die Oracle Datenbank und Apache Hadoop
DOAG -Big Data für Oracle Entwickler: Zweitagesveranstaltung mit Hands-On - 25.09.2014 in Köln
DOAG 2014 -Die größte Anwenderkonferenz rund um alle Oracle Themen, vom 18.11.2014 - 20.11.2014 in Nürnberg
Die Oracle Datenbank in die Welt von Hadoop und NoSQL integrieren
Wie lassen sich die beiden Welten, Oracle RDBMS und der NoSQL Ansatz sinnvoll für die Archivierung und das Datensammeln einsetzen?
Ziel des Vortrags ist es aufzuzeigen, wie die Kombinationen aus den Vorteilen der beiden Welten für die Analyse und Archivierung von Daten eingesetzt werden kann.
Hadoop, mit einer entsprechen Container Datenbank Lösung, eignet sich gut, um im ersten Schritt Daten zu sammeln und/oder im letzten Schritt Daten zu archivieren.
Die eigentliche Oracle RDBMS Datenbank kann dabei schnell und schlank gehalten werden, um Hardware und damit Lizenzkosten einzusparen.
Es werden Architekturansätze aufgezeigt, wie die Integration der Oracle RDBMS und NoSQL Datenbank in das Hadoop Ökosystem dabei erfolgen kann.
Mit den kostenpflichtigen Adaptern der Oracle RDBMS lässt sich zwar einfacher eine tiefe Integration mit Hadoop erreichen, aber auch mit den freien Lösungen kann bereits eine umfangreiche Lösung implementiert werden.
MongoDB für Java Programmierer (JUGKA, 11.12.13)Uwe Printz
Der Talk wurde am 11.12.2013 auf der Java User Group Karlsruhe gehalten und gibt einen Überblick und Einstieg in MongoDB aus der Sicht eines Java-Programmierers.
Dabei werden folgende Themen behandelt:
- Buzzword Bingo: NoSQL, Big Data, Horizontale Skalierung, CAP-Theorem, Eventual Consistency
- Übersicht über MongoDB
- Datenmanipulation: CRUD, Aggregation Framework, Map/Reduce
- Indexing
- Konsistenz beim Schreiben und Lesen von Daten
- Java API & Frameworks
Diese Themen wurden an unserem Breakfast Briefing beleuchtet: die neue HP 3PAR StoreServe Generation, Windows Server 2016 Storage Spaces, erschwingliches Disaster Recovery.
Sven Schlarb of the Austrian National Library presented SCAPE (in German). Besides giving a general overview of SCAPE the presentation also includes descriptions of SCAPE solutions, including tools, software integration, planning, and more.
The presentation was given at the Austrian Library day on ‘National Initiatives on Digital Information. Repositories, Research data and long-term preservation in Austria’ (http://www.obvsg.at/voeb-obvsg-bibliothekstage-2013/programm-410/) on 4 October 2013 in Vienna.
Die Oracle Datenbank und Apache Hadoop
DOAG -Big Data für Oracle Entwickler: Zweitagesveranstaltung mit Hands-On - 25.09.2014 in Köln
DOAG 2014 -Die größte Anwenderkonferenz rund um alle Oracle Themen, vom 18.11.2014 - 20.11.2014 in Nürnberg
Die Oracle Datenbank in die Welt von Hadoop und NoSQL integrieren
Wie lassen sich die beiden Welten, Oracle RDBMS und der NoSQL Ansatz sinnvoll für die Archivierung und das Datensammeln einsetzen?
Ziel des Vortrags ist es aufzuzeigen, wie die Kombinationen aus den Vorteilen der beiden Welten für die Analyse und Archivierung von Daten eingesetzt werden kann.
Hadoop, mit einer entsprechen Container Datenbank Lösung, eignet sich gut, um im ersten Schritt Daten zu sammeln und/oder im letzten Schritt Daten zu archivieren.
Die eigentliche Oracle RDBMS Datenbank kann dabei schnell und schlank gehalten werden, um Hardware und damit Lizenzkosten einzusparen.
Es werden Architekturansätze aufgezeigt, wie die Integration der Oracle RDBMS und NoSQL Datenbank in das Hadoop Ökosystem dabei erfolgen kann.
Mit den kostenpflichtigen Adaptern der Oracle RDBMS lässt sich zwar einfacher eine tiefe Integration mit Hadoop erreichen, aber auch mit den freien Lösungen kann bereits eine umfangreiche Lösung implementiert werden.
MongoDB für Java Programmierer (JUGKA, 11.12.13)Uwe Printz
Der Talk wurde am 11.12.2013 auf der Java User Group Karlsruhe gehalten und gibt einen Überblick und Einstieg in MongoDB aus der Sicht eines Java-Programmierers.
Dabei werden folgende Themen behandelt:
- Buzzword Bingo: NoSQL, Big Data, Horizontale Skalierung, CAP-Theorem, Eventual Consistency
- Übersicht über MongoDB
- Datenmanipulation: CRUD, Aggregation Framework, Map/Reduce
- Indexing
- Konsistenz beim Schreiben und Lesen von Daten
- Java API & Frameworks
Diese Themen wurden an unserem Breakfast Briefing beleuchtet: die neue HP 3PAR StoreServe Generation, Windows Server 2016 Storage Spaces, erschwingliches Disaster Recovery.
Sven Schlarb of the Austrian National Library presented SCAPE (in German). Besides giving a general overview of SCAPE the presentation also includes descriptions of SCAPE solutions, including tools, software integration, planning, and more.
The presentation was given at the Austrian Library day on ‘National Initiatives on Digital Information. Repositories, Research data and long-term preservation in Austria’ (http://www.obvsg.at/voeb-obvsg-bibliothekstage-2013/programm-410/) on 4 October 2013 in Vienna.
Große Datenmengen und kleine gelbe Elefanten: eine vielzitierte Kombination. Aber wie sieht es in der Realität denn konkret damit aus? Dieser Praxisbericht will aufzeigen, wie man in modernen BI-Architekturen große Datenmengen mit dem Hadoop-Ökosystem erfolgreich beherrschen kann und welchen verschiedenen Herausforderungen man auf diesem Weg begegnet.
Big Data in die Cloud auslagern? Warum und wenn ja, bei welchem Provider? Anhand von vier Beispielen können Sie eine geeignete Lösung finden. Verglichen werden AWS, Google Cloud, IBM Bluemix und Microsoft Azure
Fusion der Welten: Hadoop als DWH-Backend bei ProSiebeninovex GmbH
Klassische BI-Tools integrieren mit Big Data-Technologien, wie geht das am geschicktesten?
Wir stellen ein Projekt bei ProSiebenSat.1 vor, in dem wir klassische open-source ETL-Tools zur DWH-Bewirtschaftung mit Hadoop-Werkzeugen mischen. Das relationale DWH wird mit Hadoop-aggregierten Daten aus heterogenen Quellen befüllt.
Wie das alles funktioniert und welche Rolle Hadoop, das DWH, Pig und Hive dabei spielen, möchten wir in diesem Vortrag erklären.
Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?inovex GmbH
Nachdem in den letzten Jahren NoSQL ein beherrschendes Thema im Kontext von Big Data war, gewinnt SQL als Anfragesprache wieder große Bedeutung im Hadoop-Umfeld. Dabei steht mit Hive ein SQL-Dialekt zur Verfügung, mit dem zwar leicht Batch-orientierte ETL-Strecken für Hadoop gebaut werden können, der aber bisher für interaktive Analysen nicht geeignet war Mit Impala, Presto, Spark SQL und dem Stinger-Projekt ändert sich das nun rapide. Schnelle verteilte Query Engines erlauben interaktive analytische Anfragen auf großen Datenmengen. Dazu kommen neue Speicherformate wie Parquet und ORC, die effizientere Repräsentation und schnelleren Zugriff versprechen. In dieser Session gebe ich einen Überblick über Stärken und Schwächen der verschiedenen Ansätze und Erfahrungen aus dem praktischen Einsatz.
DIe Aufzeichnung dieses Webinars steht hier zur Verfügung: http://aws.amazon.com/de/recorded-webinar/
Amazon Redshift ist ein schneller und mächtiger, voll verwalteter Data Warehouse Dienst in der Cloud. Redshift skaliert von Terabytes bis über ein Petabyte bei sehr günstigen Kosten. In diesem Webinar geben wir einen Überblick über den Dienst, zeigen das Aufsetzen eines Redshift-Clusters, die Verwaltung, den Datenimport und die Abfrage des Data Warehouse über SQL und über Partnerwerkzeuge.
Mit SuperSUSE liefert die Boston Server & Storage GmbH eine getestet und zertifizierte Kombination aus Supermicro-Hardware und SUSE Enterprise Storage. Die Lösung ist nahezu grenzenlos skalierbar, hochperformant, und lässt sich individuell auf die Anforderungen und Bedürfnisse des Kunden anpassen. Im Webinar stellt SUSE die grundsätzliche Funktionsweise ihres Software defined Enterprise Storage vor, und wir zeigen verschiedene Spielarten und Anwendungsfälle der zugehörigen Boston Petastor Appliances.
Big Data verspricht den Unternehmen die 360°-Sicht auf ihre Kunden, indem die Analyse von Daten aus verschiedensten Kanälen möglich werden soll. Insbesondere in den sozialen Medien entstehen große Mengen an Text, Video und Audio. Doch wie lassen sich aus diesen "Unstructured Data" verwertbare Informationen gewinnen? Apache UIMA ist ein Framework zur Verarbeitung und inhaltlichen Analyse unstrukturierter Daten, insbesondere Text.
Dieser Vortrag bietet eine Einführung in Apache UIMA und seine Architektur. Am Beispiel wird erklärt, welche Annotationskomponenten zur Verfügung stehen und wie diese zu Pipelines kombiniert werden können. Außerdem wird eine Integration von UIMA mit Hadoop gezeigt.
Speaker: Hans-Peter Zorn
ist Big Data Scientist bei der inovex GmbH. Zuvor beschäftigte er sich am UKP Labder TU Darmstadt mit der Analyse großer Textmengen mit Hadoop.
Mehr Vorträge: https://www.inovex.de/de/content-pool/vortraege/
SAS Forum Switzerland 2015: Big Data - Guido OswaldGuido Oswald
Viele Unternehmen (vom Multinationalen Großunternehmen bis hin zum KMU) experimentieren bereits mit Hadoop als zuverlässige und günstige Datenplattform.
Egal ob als Ersatz für das DWH, parallel zum DWH oder als 'Staging Platform', dem sog. Data Lake, Hadoop hat viele Vorteile was Effizienz und Performance angeht und ist zudem erst einmal lizenzkostenfrei. Der putzige Elefant hat das Potential die Karriere von Linux im Rechenzentrum zu wiederholen.
Für SAS ist Hadoop ein richtiger Glücksgriff. Nicht nur als günstiger und agiler Datenspeicher, sondern auch als Rechenplattform für die verteilten Prozeduren und die massiv parallel rechnende In-Memory Engine "LASR".
Wie SAS einen Hadoop Cluster nutzen kann und wie andere MPP Datenbanken (SAP HANA, Teradata, Pivotal) in dieses Bild passen soll dieser Vortrag zeigen.
Wie geht ein Unternehmen im Zeitalter des Web 2.0 mit riesigen, unstrukturierten Datenmengen um? Dank einer Einladung der grössten Internetagentur der Schweiz, Namics, durften wir zu diesem brandaktuellen Thema am 09.09.2011 im Rahmen ihres alljährlichen Weiterbildungsevents referieren. Unser Architect Christian Gügi sprach über das Thema “Big Data im Unternehmenseinsatz mit Hadoop”.
Zum Inhalt:
Überall auf der Welt trafen sich zum NoSQL Summer 2010 Interessierte, um Papers zum Thema NoSQL zu lesen, zu verstehen und zu diskutieren. Dazu zählten insbesondere die Papers über Google’s Chubby, MapReduce & BigTable aus dem Jahr 2006, aber auch Cassandra (Facebook), (Dynamo) Amazon, Hadoop (Apache) uvm. In der Zwischenzeit hat sich das Themengebiet ausgedehnt, ein Markt wächst, immer mehr Produkte etablieren sich und viele Unternehmen greifen das Thema auf. NoSQL ist kein Buzz mehr. Aber was versteht man unter NoSQL, wann und wofür wird es eingesetzt und welche Produkte gibt es? Im Vortrag werden diese Fragestellungen anhand von Hadoop und Lily erläutert und damit der Bogen zu aktuellen Content Management Systemen geschlagen.
Steven Schuurman, CEO von Elasticsearch, hat es in einem Blog als die „wahrscheinlich wichtigste Ankündigung seit Gründung der Firma“ genannt. Gemeint hat er Marvel. Marvel ist ein neues Tool, das ein Monitoring eines Elasticsearch-Clusters ermöglicht. Dieses beinhaltet Informationen über Elasticsearch, Lucene und das System selbst. Ein Tool, welches ein so umfangreiches Monitoring für Elasticsearch anbietet, ist einzigartig auf dem Markt.
Alle Metriken zu sammeln, zu visualisieren und miteinander in Zusammenhang zu bringen gibt Ihnen Einblicke in Elasticsearch-Cluster, die so vorher mit großem Aufwand verbunden waren. Zustand, Verfügbarkeit, Nutzung, Auslastung Ihrer Umgebung können Sie nun bequem über ein einziges Tool beobachten – in Echtzeit oder auch historisch.
Dieses Webinar gibt Ihnen einen Überblick über die Möglichkeiten, die Ihnen Marvel bietet, die Installation in einem Cluster, die Verwendung von Marvel sowie die Analyse Ihres Clusters.
Inhalte des Webinars:
• Was ist Marvel?
• Die Funktionsweise von Marvel
• Installation von Marvel
• Abgrenzung zum ELK-Stack
• Vorteile gegenüber anderen Monitoring-Ansätzen
• Die wichtigsten Metriken
• Customizing Marvel
Große Datenmengen und kleine gelbe Elefanten: eine vielzitierte Kombination. Aber wie sieht es in der Realität denn konkret damit aus? Dieser Praxisbericht will aufzeigen, wie man in modernen BI-Architekturen große Datenmengen mit dem Hadoop-Ökosystem erfolgreich beherrschen kann und welchen verschiedenen Herausforderungen man auf diesem Weg begegnet.
Big Data in die Cloud auslagern? Warum und wenn ja, bei welchem Provider? Anhand von vier Beispielen können Sie eine geeignete Lösung finden. Verglichen werden AWS, Google Cloud, IBM Bluemix und Microsoft Azure
Fusion der Welten: Hadoop als DWH-Backend bei ProSiebeninovex GmbH
Klassische BI-Tools integrieren mit Big Data-Technologien, wie geht das am geschicktesten?
Wir stellen ein Projekt bei ProSiebenSat.1 vor, in dem wir klassische open-source ETL-Tools zur DWH-Bewirtschaftung mit Hadoop-Werkzeugen mischen. Das relationale DWH wird mit Hadoop-aggregierten Daten aus heterogenen Quellen befüllt.
Wie das alles funktioniert und welche Rolle Hadoop, das DWH, Pig und Hive dabei spielen, möchten wir in diesem Vortrag erklären.
Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?inovex GmbH
Nachdem in den letzten Jahren NoSQL ein beherrschendes Thema im Kontext von Big Data war, gewinnt SQL als Anfragesprache wieder große Bedeutung im Hadoop-Umfeld. Dabei steht mit Hive ein SQL-Dialekt zur Verfügung, mit dem zwar leicht Batch-orientierte ETL-Strecken für Hadoop gebaut werden können, der aber bisher für interaktive Analysen nicht geeignet war Mit Impala, Presto, Spark SQL und dem Stinger-Projekt ändert sich das nun rapide. Schnelle verteilte Query Engines erlauben interaktive analytische Anfragen auf großen Datenmengen. Dazu kommen neue Speicherformate wie Parquet und ORC, die effizientere Repräsentation und schnelleren Zugriff versprechen. In dieser Session gebe ich einen Überblick über Stärken und Schwächen der verschiedenen Ansätze und Erfahrungen aus dem praktischen Einsatz.
DIe Aufzeichnung dieses Webinars steht hier zur Verfügung: http://aws.amazon.com/de/recorded-webinar/
Amazon Redshift ist ein schneller und mächtiger, voll verwalteter Data Warehouse Dienst in der Cloud. Redshift skaliert von Terabytes bis über ein Petabyte bei sehr günstigen Kosten. In diesem Webinar geben wir einen Überblick über den Dienst, zeigen das Aufsetzen eines Redshift-Clusters, die Verwaltung, den Datenimport und die Abfrage des Data Warehouse über SQL und über Partnerwerkzeuge.
Mit SuperSUSE liefert die Boston Server & Storage GmbH eine getestet und zertifizierte Kombination aus Supermicro-Hardware und SUSE Enterprise Storage. Die Lösung ist nahezu grenzenlos skalierbar, hochperformant, und lässt sich individuell auf die Anforderungen und Bedürfnisse des Kunden anpassen. Im Webinar stellt SUSE die grundsätzliche Funktionsweise ihres Software defined Enterprise Storage vor, und wir zeigen verschiedene Spielarten und Anwendungsfälle der zugehörigen Boston Petastor Appliances.
Big Data verspricht den Unternehmen die 360°-Sicht auf ihre Kunden, indem die Analyse von Daten aus verschiedensten Kanälen möglich werden soll. Insbesondere in den sozialen Medien entstehen große Mengen an Text, Video und Audio. Doch wie lassen sich aus diesen "Unstructured Data" verwertbare Informationen gewinnen? Apache UIMA ist ein Framework zur Verarbeitung und inhaltlichen Analyse unstrukturierter Daten, insbesondere Text.
Dieser Vortrag bietet eine Einführung in Apache UIMA und seine Architektur. Am Beispiel wird erklärt, welche Annotationskomponenten zur Verfügung stehen und wie diese zu Pipelines kombiniert werden können. Außerdem wird eine Integration von UIMA mit Hadoop gezeigt.
Speaker: Hans-Peter Zorn
ist Big Data Scientist bei der inovex GmbH. Zuvor beschäftigte er sich am UKP Labder TU Darmstadt mit der Analyse großer Textmengen mit Hadoop.
Mehr Vorträge: https://www.inovex.de/de/content-pool/vortraege/
SAS Forum Switzerland 2015: Big Data - Guido OswaldGuido Oswald
Viele Unternehmen (vom Multinationalen Großunternehmen bis hin zum KMU) experimentieren bereits mit Hadoop als zuverlässige und günstige Datenplattform.
Egal ob als Ersatz für das DWH, parallel zum DWH oder als 'Staging Platform', dem sog. Data Lake, Hadoop hat viele Vorteile was Effizienz und Performance angeht und ist zudem erst einmal lizenzkostenfrei. Der putzige Elefant hat das Potential die Karriere von Linux im Rechenzentrum zu wiederholen.
Für SAS ist Hadoop ein richtiger Glücksgriff. Nicht nur als günstiger und agiler Datenspeicher, sondern auch als Rechenplattform für die verteilten Prozeduren und die massiv parallel rechnende In-Memory Engine "LASR".
Wie SAS einen Hadoop Cluster nutzen kann und wie andere MPP Datenbanken (SAP HANA, Teradata, Pivotal) in dieses Bild passen soll dieser Vortrag zeigen.
Wie geht ein Unternehmen im Zeitalter des Web 2.0 mit riesigen, unstrukturierten Datenmengen um? Dank einer Einladung der grössten Internetagentur der Schweiz, Namics, durften wir zu diesem brandaktuellen Thema am 09.09.2011 im Rahmen ihres alljährlichen Weiterbildungsevents referieren. Unser Architect Christian Gügi sprach über das Thema “Big Data im Unternehmenseinsatz mit Hadoop”.
Zum Inhalt:
Überall auf der Welt trafen sich zum NoSQL Summer 2010 Interessierte, um Papers zum Thema NoSQL zu lesen, zu verstehen und zu diskutieren. Dazu zählten insbesondere die Papers über Google’s Chubby, MapReduce & BigTable aus dem Jahr 2006, aber auch Cassandra (Facebook), (Dynamo) Amazon, Hadoop (Apache) uvm. In der Zwischenzeit hat sich das Themengebiet ausgedehnt, ein Markt wächst, immer mehr Produkte etablieren sich und viele Unternehmen greifen das Thema auf. NoSQL ist kein Buzz mehr. Aber was versteht man unter NoSQL, wann und wofür wird es eingesetzt und welche Produkte gibt es? Im Vortrag werden diese Fragestellungen anhand von Hadoop und Lily erläutert und damit der Bogen zu aktuellen Content Management Systemen geschlagen.
Steven Schuurman, CEO von Elasticsearch, hat es in einem Blog als die „wahrscheinlich wichtigste Ankündigung seit Gründung der Firma“ genannt. Gemeint hat er Marvel. Marvel ist ein neues Tool, das ein Monitoring eines Elasticsearch-Clusters ermöglicht. Dieses beinhaltet Informationen über Elasticsearch, Lucene und das System selbst. Ein Tool, welches ein so umfangreiches Monitoring für Elasticsearch anbietet, ist einzigartig auf dem Markt.
Alle Metriken zu sammeln, zu visualisieren und miteinander in Zusammenhang zu bringen gibt Ihnen Einblicke in Elasticsearch-Cluster, die so vorher mit großem Aufwand verbunden waren. Zustand, Verfügbarkeit, Nutzung, Auslastung Ihrer Umgebung können Sie nun bequem über ein einziges Tool beobachten – in Echtzeit oder auch historisch.
Dieses Webinar gibt Ihnen einen Überblick über die Möglichkeiten, die Ihnen Marvel bietet, die Installation in einem Cluster, die Verwendung von Marvel sowie die Analyse Ihres Clusters.
Inhalte des Webinars:
• Was ist Marvel?
• Die Funktionsweise von Marvel
• Installation von Marvel
• Abgrenzung zum ELK-Stack
• Vorteile gegenüber anderen Monitoring-Ansätzen
• Die wichtigsten Metriken
• Customizing Marvel
Webinar Big Data - Enterprise Readiness mit Hadoop
1. www.fun.de
Machen Sie mehr aus Ihren Daten
www.fun.de
Machen Sie mehr aus Ihren Daten!
Aus unserer Webinarreihe Exzellenz in Big Data:
Aus unserer Webinarreihe
Exzellenz in Big Data:
Wie kann ich Hadoop in meinem Unternehmen einsetzen und sicher betreiben?
Uwe Neumann, Senior Sales Manager
„Enterprise Readiness mit Hadoop“
2. www.fun.de
Machen Sie mehr aus Ihren Daten
www.fun.de
Machen Sie mehr aus Ihren Daten!
www.fun.de
Uwe Neumann
Senior Sales Manager
uwe.neumann@fun.de
+49 721 96448-165
Michael Weiß
Prokurist, Vertriebsleiter
michael.weiss@fun.de
+49 721 96448-145
Ihre Ansprechpartner
3. www.fun.de
Machen Sie mehr aus Ihren Daten
www.fun.de
Machen Sie mehr aus Ihren Daten!
www.fun.de
Unsere Ziele heute
•Verstehen: Was ist Hadoop ?
•Erkennen: Hadoop bringt mir Mehrwerte in meinem Business
•Verstehen: Welche Plattformen sind für Hadoop geeignet
•Erkennen: Hadoop ist im professionellen Umgang eine Chance
4. www.fun.de
Machen Sie mehr aus Ihren Daten
www.fun.de
Machen Sie mehr aus Ihren Daten!
www.fun.de
3
4
„Data Exploration Toolbox“ für die Automotive Industry
„Big Data im Industrie 4.0 – Kontext“
2
„Enterprise Readiness mit Hadoop“ – Infrastrukturen für Big Data
Heute:
27.11.14
Exzellenz in Big Data
Unsere Big Data Webinarreihe
16.01.15
5. www.fuwnw.wdwwew ..ffuunn.d.de e Machen Sie mehr aus Ihren Daten Machen Sie mehr aus Ihren Daten!
1
Log Management
2
Analyse-Lösungen für
Maschinen Daten
Unser Know-how
Unabhängiges
Beratungs- und
Lösungshaus für
3
Industrie 4.0 & Big Data
Anwendungen
6. www.fun.de
Machen Sie mehr aus Ihren Daten
www.fun.de
Machen Sie mehr aus Ihren Daten!
www.fun.de
Solides Fundament
Die solide Basis für IT-Infrastruktur
Enterprise ready
Offene Standards für Interoperabilität
Hohe Performance
Mandantenfähig
Security & Compliance
Betrieb & Analyse
Neue Anwendungen Vertrauenswürdige Informationen Wertvolle Erkenntnisse
SLAs
Kostengünstig
Die Basis für den Erfolg Ihres Unternehmens
7. www.fun.de
Machen Sie mehr aus Ihren Daten
www.fun.de
Machen Sie mehr aus Ihren Daten!
www.fun.de
Hadoop speichert jede Art von Daten, analysiert und transformiert
Was ist Hadoop?
8. www.fun.de
Machen Sie mehr aus Ihren Daten
www.fun.de
Machen Sie mehr aus Ihren Daten!
www.fun.de
… Daten
in kleinere Teile aufbricht und diese in einem Server-Cluster zur Parallel-Verarbeitung verteilt
namenodes
datanodes
hdfs client
Node Metadata
Anwendung
Was ist Hadoop ? Ein Open Source Framework welches …
Daten
… datenintensive Anwendungen unterstützt
… große, strukturierte wie unstrukturierte Daten auf einer Vielzahl von Knoten bearbeitet.
9. www.fun.de
Machen Sie mehr aus Ihren Daten
www.fun.de
Machen Sie mehr aus Ihren Daten!
www.fun.de
Teilt Dateien in kleinere Blöcke Standardeinstellung ist 64MB Blockgröße
Reduzierte Suchzeiten
HDFS repliziert automatisch die Datenblöcke auf unterschiedliche Server
Ausfallsicherheit
Basiert auf einem typischen Liunx Filesystem
Investitionssicherheit
Die Kernelemente von Hadoop HDFS – Hadoop Distributed File System
10. www.fun.de
Machen Sie mehr aus Ihren Daten
www.fun.de
Machen Sie mehr aus Ihren Daten!
www.fun.de
Speichert Blöcke von Dateien auf dem nativen Filesystem
Bedient direkt die Schreib-/Lesezugriffe des Clients
Führt die Block Erzeugung, Löschung und Duplizierung aus und speichert den gleichen Block mehrfach
Redundanz
Führt die Berechnung auf den einzelnen Blöcken aus
Parallele Bearbeitung
Die Kernelemente von Hadoop HDFS – Datenknoten - datanode
11. www.fun.de
Machen Sie mehr aus Ihren Daten
www.fun.de
Machen Sie mehr aus Ihren Daten!
www.fun.de
Koordiniert die Daten Speicherung
Verwaltet die Dateitabelle (namespace)
Speichert alle Metadaten im RAM
Weist den Datenknoten die Blöcke zu
Koordiniert die Replikation der Datenblöcke
Die Kernelemente von Hadoop HDFS – namenode
12. www.fun.de
Machen Sie mehr aus Ihren Daten
www.fun.de
Machen Sie mehr aus Ihren Daten!
www.fun.de
Bringt die Anwendung zu den Daten …
Verteilt die Bearbeitungsaufgaben (Tasks) auf die datanodes.
Steuert die Auslastung der Rechenkapazitäten
Bringt bei Ausfall eines datanodes seine Tasks automatisch auf einen anderen Knoten
Ermöglichst somit die parallele Datenverarbeitung im Cluster
Die Kernelemente von Hadoop Hadoop – job tracker
13. www.fun.de
Machen Sie mehr aus Ihren Daten
www.fun.de
Machen Sie mehr aus Ihren Daten!
www.fun.de
Ein Einblick in eine auf Hadoop basierte Data Management Plattform
Quelle
DATEN ZUGRIFF
Data Workflow, Lifecycle & Governance
Falcon
Sqoop
Flume
NFS
WebHDFS
GOVERNANCE & INTEGRATION
SICHERHEIT
Authentication
Authorization
Accounting
Data Protection
Storage: HDFS
Resources: YARN
Access: Hive, …
Pipeline: Falcon
Cluster: Knox
Provision, Manage & Monitor
Ambari
Zookeeper
Scheduling
Oozie
BETRIEB
Script
Pig
Search
Solr
SQL
Hive/Tez, HCatalog
NoSQL
HBase
Accumulo
Stream
Storm
Others
Spark, In- Memory,
ISV engines
DATA MANAGEMENT
1
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
N
HDFS (Hadoop Distributed File System)
Batch
Map Reduce
YARN: Data Operating System
14. www.fuwnw.wdwwew ..ffuunn.d.de e Machen Sie mehr aus Ihren Daten Machen Sie mehr aus Ihren Daten!
Viele Mitarbeiter greifen
auf unterschiedliche
Systeme zu
Historisch gewachsene
Systemlandschaft
und Spezialsysteme
Silos mit vielfältig
strukturierten und
unstrukturierten
Daten
EDWs Marts Servers Documents Storage Search
ERP, CRM, RDBMS, Machines Bilder, Videos, Streams Externe Daten
Archives
Produktion
Management Controlling Vertrieb Produktion Logistik Analyse
Quelle:
Die Big Data Herausforderung
in herkömmlichen Systemen
15. www.fuwnw.wdwwew ..ffuunn.d.de e Machen Sie mehr aus Ihren Daten Machen Sie mehr aus Ihren Daten!
EDWs Marts Documents Storage Search
ERP, CRM, RDBMS, Machines Bilder, Videos, Streams Externe Daten
Archives
Produktion
Management Controlling Vertrieb Produktion Logistik Analyse
Aktives, einheitliches Archiv
• Vollständige Originaldaten
• Unbegrenzte Zeit, jede Quelle
Niedrige Speicherkosten
Persistente Datenhaltung
• Eine Datenquelle für jedwede
Analyse
• Schneller und kostengünstiger
Self-Service BI
• Einfache Such- und BI-Tools
• Reduziert Anfragen an die interne
IT
Vielfältige Analyse Plattform
• Bringt die Anwendung zu den
Daten
• Echtzeit Analytik
Quelle:
Der neue Weg:
Die Anwendung zu den Daten bringen
16. www.fun.de
Machen Sie mehr aus Ihren Daten
www.fun.de
Machen Sie mehr aus Ihren Daten!
www.fun.de
Hadoop ist eine der kostengünstigsten Big Data Plattformen
Hadoop ist für alle Arten von Daten geeignet
4
Value
Hadoop verarbeitet beliebig große Datenmengen
3
Volume
!
2
Variety
?
Hadoop skaliert linear mit der Anzahl der Datenknoten
Velocity
1
Warum Hadoop? Unterstützt die vier Kernaspekte von Big Data
17. www.fuwnw.wdwwew ..ffuunn.d.de e Machen Sie mehr aus Ihren Daten Machen Sie mehr aus Ihren Daten!
2
3
… bieten professionelle Wartungspakete und
Support
1
… liefern validierte, Enterprise-fähige
Distributionen und sind international vertreten
… entwickeln zusammen mit der OpenSource
Community Hadoop ständig weiter
Welches Hadoop?
cloudera und Hortonworks …
18. www.fun.de
Machen Sie mehr aus Ihren Daten
www.fun.de
Machen Sie mehr aus Ihren Daten!
www.fun.de
Preisgünstige Plattform in Hinsicht TCO (Total Cost of Ownership)
Anschaffungskosten
Kosten für Installation und Validierung
Kosten für Betrieb und Wartung
Welche Hardware für Hadoop? Grundanforderungen
Auf aktuelle Hardware setzen
Hochverfügbarkeit
Redundanz aller Komponenten (Netzteile, Switches etc)
Namenodes immer redundant auslegen
Mit der Anzahl der Datenknoten steigt die Fehlertoleranz
19. www.fun.de
Machen Sie mehr aus Ihren Daten
www.fun.de
Machen Sie mehr aus Ihren Daten!
www.fun.de
Grundanforderungen an die Hardware
Grundanforderungen
Typische „Enterprise class“ Server
Ausgelegt für Hochverfügbarkeit und Betriebssicherheit
Die Mehrkosten hierfür sind gerechtfertigt, da nur wenige Rechner dieser Klasse benötigt werden
Master
z.B namenode
Slaves
z.B. datanodes
Grundanforderungen
Standardserver von namhaften Herstellern
Kein Auslegung auf Hochverfügbarkeit
Jedoch: Möglichst hohe I/O pro Sekunde
Ausfallsicherheit wird durch Software abgebildet
20. www.fun.de
Machen Sie mehr aus Ihren Daten
www.fun.de
Machen Sie mehr aus Ihren Daten!
www.fun.de
Beispiel für konkrete Hardware für Hadoop „einzelne Rechenknoten“ mit lokalem Storage
Cisco Rackserver
2 CPU “sandy bridge”, 128 GB RAM, 8 * HDD 2,5” 1TB SATA, 2 * 10 Gbit NIC
Speicherkapazität [DAS] pro Server
8 TB brutto, RAID 0, n=3 2,66 TB ‘netto’
100 I/Os pro HDD, n=3 266 I/Os pro Server
Speicherkapazität gesamt
2,66 TB * 4 == 10,64 TB
266 I/Os * 4 == 1064 I/Os
1 Namenode [Management Server]
4 Datanodes mit Festplatten [DAS]
Quelle
21. www.fun.de
Machen Sie mehr aus Ihren Daten
www.fun.de
Machen Sie mehr aus Ihren Daten!
www.fun.de
Cisco Rackserver
2 CPU “sandy bridge”, 128 GB RAM, 1 * HDD 2,5” 1TB SATA, 2 * 10 Gbit NIC
Speicherkapazität [NetApp E5560] gesamt max Ausbau 60 HDD
30 * 2 TB 60 TB brutto, n=2, 24 TB ‘netto’
300 I/Os *4 == 1200 I/Os gesamt
Speicherkapazität [LUN] pro Server
15 TB brutto, RAID 5, n=2 6 TB ‘netto’
300 I/Os pro Server
Beispiel für konkrete Hardware für Hadoop „einzelne Rechenknoten“ mit Storageeinheiten
1 Namenode [Management Server]
4 Datanodes mit zentr. Storage
Quelle
22. www.fun.de
Machen Sie mehr aus Ihren Daten
www.fun.de
Machen Sie mehr aus Ihren Daten!
www.fun.de
Hadoop storage mit E-series
Hohe Speicherdichte u. Kapazität
180TB in 4 Höheneinheiten
Geringe Standfläche
Replikationsfaktor von 2 statt 3
Geringere Netzwerk-Last
Besserer Durchsatz
Hochverfügbarkeit für Hadoop
Zuverlässiger NameNode
Schnellere cluster recovery
Eine konkrete Hardware für Hadoop NetApp Solutions for Hadoop
Quelle
23. www.fuwnw.wdwwew ..ffuunn.d.de e Machen Sie mehr aus Ihren Daten Machen Sie mehr aus Ihren Daten!
Wächst mit Ihren
Anforderungen
Maximale Flexibilität: Die Unified Architektur stellt sicher, dass der FlexPod
auch in bestehende IT-Umgebungen eingebunden werden kann.
RZ konforme BigData
Analytics Plattform
Skalierbare und
hochverfügbare
Architektur
Schnelle, risikolose
Implementierung
Optimierter und
standardisierter Betrieb
24x7 Hotline für
Gesamtinfrastruktur
Alle Komponenten sind perfekt aufeinander
abgestimmt
Schneller beschafft
Schneller implementiert
Geringerer
Managementaufwand
Eine Hotline für alles
Modulare
Referenzarchitektur –
“Building Blocks” passen
immer optimal zusammen
FlexPod Select =
Speziell optimiert für
Big Data Workloads
Mehr Betriebssicherheit mit
weniger Aufwand
Plug and Play für Ihre Hadoop Installation
NetApp Flexpod Select
24. www.fuwnw.wdwwew ..ffuunn.d.de e Machen Sie mehr aus Ihren Daten Machen Sie mehr aus Ihren Daten!
http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.1-
latest/bk_cluster-planning-guide/content/ch_hardware-recommendations.
html
http://www.netapp.com/us/media/ar-esg-netapp-open-
solution.pdf
http://www.cloudera.com/content/cloudera/en/re
sources/library/whitepaper/evaluating-hardware-platforms-
for-cloudera.html
Mehr zum Thema „Hardware für Hadoop“
25. www.fun.de
Machen Sie mehr aus Ihren Daten
www.fun.de
Machen Sie mehr aus Ihren Daten!
www.fun.de
Und was mache ich damit … ? Analytics Tools … eine Auswahl
3rd Party Tools
Pentaho
Talend
R
KNIME
Informatica
SAS
Hunk
Rapidminer
Hadoop Tools
Hive, PIG, Mahout …
Quelle
26. www.fuwnw.wdwwew ..ffuunn.d.de e Machen Sie mehr aus Ihren Daten Machen Sie mehr aus Ihren Daten!
2
3
Industrie 4.0
1
Leistungsfähige Big Data Infrastruktur und
Innovative Speichertechnologie
Enterprise fähige Hadoop-Distributionen
Unsere Partner für Ihren Erfolg
Infrastruktur, Big Data Technologie und Know How
Fraunhofer IOSB-INA
Anwendungszentrum Industrial Automation
Lemgo
27. www.fuwnw.wdwwew ..ffuunn.d.de e Machen Sie mehr aus Ihren Daten Machen Sie mehr aus Ihren Daten!
Weg frei für Ihre Big Data Infrastruktur
Konkreten Usecase
wählen
Präsentations-termin
der geplanten
Vorgehensweise
Mit allen Beteiligten
Abteilungen
Workshop und
gemeinsame
Durchführung
Proof of Concept
Businesscase/
Durchführbarkeit
Umsetzung /
Produktiv
1 2 3 4 5
28. www.fun.de
Machen Sie mehr aus Ihren Daten
www.fun.de
Machen Sie mehr aus Ihren Daten!
www.fun.de
Exzellenz in Big Data – coming next
3
3. „Data Exploration Toolbox“ für die Automotive Industry
Unsere Big Data Webinarreihe
4
„Big Data im Industrie 4.0 – Kontext“
2
2. „Enterprise Readiness mit Hadoop“ – Infrastrukturen für Big Data
Heute:
27.11.14
16.01.15
29. www.fun.de
Machen Sie mehr aus Ihren Daten
www.fun.de
Machen Sie mehr aus Ihren Daten!
www.fun.de
Uwe Neumann
Senior Sales Manager
uwe.neumann@fun.de
+49 721 96448-165
www.fun.de
Michael Weiß
Prokurist, Vertriebsleiter
michael.weiss@fun.de
+49 721 96448-145
www.fun.de