SlideShare ist ein Scribd-Unternehmen logo
1 von 19
Downloaden Sie, um offline zu lesen
Wilfried Hoge
Leading Technical Sales Professional
Senior IT Architect Information Management
IBM Deutschland




      Big Value from Big Data
      Fertig werden mit den 3 wichtigsten
      Herausforderungen: Volume, Velocity und
      Variety [=V3]




                                                Seite : 1
Information Management


 Was ist Big Data?                                                         2020

  •  Datenmengen wachsen immer
     schneller – in allen Unternehmen
                                         44x
                                           mehr Daten im
                                                                       35 zettabytes



     und in allen Branchen                 kommenden
                                           Jahrzehnt
  •  Die Daten werden häufig von
     einer großen Anzahl Menschen
     (z.B. Social Media) oder von
                                                                            80%
                                                                           der Daten sind
     Maschinen (z.B. Ticker oder
                                                                           unstrukturiert
     Messgeräte) generiert
  •  Die meisten Daten sind nicht
     einfach strukturiert sondern              2009
     haben komplexe oder                 800,000 petabytes
     unbekannte Strukturen und
     der Aufwand für die Analyse und
     Anpassung der Strukturierung ist sehr groß
  •  Informationen in diesen Daten enthalten große Chancen und großen Wert und
     daher ist die effiziente Analyse dieser Daten von strategischer Bedeutung
  •  Big ist relativ zu dem, was bisher an Daten in einem Unternehmen verarbeitet
     werden konnte, und bezieht sich sowohl auf die Datenmenge als auch auf die
     Verarbeitungsgeschwindigkeit

                                                                                 Seite : 2
Information Management


 Die Big Data Herausforderung
      Nutzen zu ziehen aus diesen riesigen Datenmengen, die so verschieden
   strukturiert sind und so schnell entstehen, ist mit bisherigen Technologien nicht
                                   möglich gewesen.
   Eine Technologie für BigData muss geeignet sein, die drei wichtigsten Dimensionen von
   BigData zu beherrschen: Variety, Velocity, Volume (=V3)

                                                           Verarbeitung der Komplexität
                                                           von relationalen und nicht-
                                              Variety      relationalen Datentypen und
                                                           Schemas


                                                           Analyse von Daten direkt
                                              Velocity     während sie entstehen



                                                           Effizientes skalieren für große
                                              Volume       Datenmengen

                                                                                    Seite : 3
Information Management


              Volume und Velocity – zwei Dimensionen für Big Data
               Exa
                                                                                                    Wind Turbine Placement &
                                                                                                    Operation
                              Up to
                              10,000                                                                PBs of data
                              Times                                                                 Analysis time to 3 days from 3 weeks
              Peta            larger                                                                1220 IBM iDataPlex nodes
                Data Scale




                                                                                                           DeepQA
              Tera
                                                                                                           100s GB for Deep Analytics
                               Data at Rest
Data Scale




                                                                                                           3 sec/decision
                                                                                                           Power7, 15TB memory

              Giga
                                                                                                             Telco Promotions
                                                                                                             100,000 records/sec, 6B/day
                             Traditional Data                                                                10 ms/decision
              Mega           Warehouse and                                                                   270TB for Deep Analytics
                             Business Intelligence
                                                                                Up to 10,000
                                                         Data in Motion         times faster                Security
                                                                                                            600,000 records/sec, 50B/day
               Kilo
                                                                                                            1-2 ms/decision
                        yr     mo             wk   day    hr   min        sec     …    ms      µs
                                                                                                            320TB for Deep Analytics
                             Occasional                   Frequent                 Real-time
                                                   Decision Frequency

                                                                                                                               Seite : 4
Information Management


 Massiv parallele Verarbeitung für Volume und Velocity

  •  Divide and conquer ist eine bewährte Methode zur Bewältigung von
     umfangreichen Berechnungen
  •  Jeder Knoten verwaltet einen Teil der Daten
  •  Jeder Knoten kann Algorithmen auf seinen Daten ausführen
  •  Viele verteilte Knoten lösen ein Problem, indem sie parallel Teilaufgaben lösen
  •  Eine übergeordnete Kontrolle schickt die passenden Algorithmen zu den Daten


                                                   Anfrageknoten




                           Berechnungs-/Speicherknoten
                                                                              Seite : 5
Information Management


 Variety – Speicherung und Analyse neuer Datentypen

                         •  Daten aus den Quellen Web (z.B. Logs, Clickstream),
                            Dokumente (z.B. Texte, Protokolle, E-Mails), RFIDs (XML,
                            Spatial) werden in vielen Unternehmen bereits gesammelt
                         •  Die Datenstrukturen sind in den wenigsten Fällen geeignet für
                            die Verarbeitung in traditionellen DWH Umgebungen, die
                            meist auf relationale Datenstrukturen beschränkt sind
                         •  Aufwändige ETL Prozesse und/oder Betrachtung von
                            Ausschnitten machen sie konsumierbar
                         •  Diese Daten aber in Gänze zu analysieren erfordert eine
                            direkte Verarbeitung von komplexeren Datentypen
                         •  Hinzu kommen Datentypen, die nicht leicht in relationale
                            Strukturen zu überführen sind und daher i.d.R. gar nicht
                            berücksichtigt wurden (z.B. Audio, Bilder, Video)

                         •  Datenspeicher, die in der Lage sind die Daten in ihrer Vielfalt
                            direkt zu behandeln, und Algorithmen, die diese Daten
                            verarbeiten, sind notwendig.


                                                                                     Seite : 6
Information Management


 Variety – Explorative Analysen für Big Data

  •  IBM Research hat Algorithmen zur explorativen
     Analyse entwickelt
  •  Diese Algorithmen erlauben die Analyse von Daten
     in ihrem ursprünglichen Datenformat


              Text                      Statistics

              Image & Video             Mining

              Acoustic                  Predictive               Times Series

              Financial                 Geospatial               Mathematical


                IBM macht den Unterschied – signifikante Investitionen in die
               Forschung und Entwicklung von Analysealgorithmen für Big Data
                                                                                Seite : 7
Information Management


 Big	
  Data	
  Ansatz	
  ergänzt	
  das	
  bisherige	
  Vorgehensmodell	
  
 	
  
            Traditionelles Vorgehen                     Big Data Vorgehen
  Strukturierung & Wiederholbare Analyse           Iterative & Forschende Analyse


      Fachbereich                                                IT
      Bestimmen, welche                                          Stellen eine Plattform
      Fragen gestellt werden                                     für kreative Erkundung
                                                                 bereit



      IT                                                         Fachbereich
      Strukturiert die Daten,                                    Erkundet, welche
      um die Fragen zu                                           Informationen in den
      beantworten                                                Daten stecken



       Monatlicher Umsatz                                        Reputation der Marke
       Profitabilität                                            Produkt Strategie
       Kundenanalyse                                             Maximierung der Ausutzung




                                                                                 Seite : 8
Information Management


 Eine Kombination von zwei Technologien für Big Data

  •  Um den 3 Dimensionen von Big Data – Volume, Velocity und Variety – gerecht
     zu werden ist eine Kombination von zwei Technologien sinnvoll

  •  Analyse von Big Data während der Entstehung – Streaming Analytics
     •  Die Daten werden analysiert sobald sie im System ankommen
     •  Die einfließenden Datenströme werden analysiert und können mit gespeicherten
        Informationen in Verbindung gebracht werden
     •  Aus der Analyse werden sofort Aktivitäten (Events) abgeleitet
     ➯  InfoSphere Streams

  •  Speicherung von großen Datenmengen und flexible Analyse dieser Daten –
     Internet Scale Analytics
     •  Die Daten werden gespeichert und stehen für verschiedenste Analysen bereit
     •  Operationen auf diesen Daten können effizient ausgeführt werden
     •  Basiert auf dem Hadoop Framework
     ➯  InfoSphere BigInsights

                                                                                       Seite : 9
Information Management


 IBM Big Data Platform
                                                           IBM Big Data              Client and Partner                                       Marketing
                                                             Solutions                   Solutions
                                                                                                                                              IBM Unica


                                           Big Data Accelerators                                                                               Content
                                                                                                                                               Analytics
                                                                                                                                                 ECM
                         Text        Statistics        Financial        Geospatial       Acoustic

                            Image/Video           Mining       Times Series          Mathematical                                             Business
                                                                                                                                              Analytics
                                                                                                                                            Cognos & SPSS
                          Connectors                 Applications               Blueprints
                                                                                                                                              Warehouse




                                                                                                          InforSphere Information Server
                                                                                                                                              Appliance
                                      Big Data Enterprise Engines
                                                                                                                                             IBM Netezza

                                                                                                                                              Master Data
                                                                                                                                             Management
                                                                                                                                           InfoSphere MDM
                                InfoSphere Streams                 InfoSphere BigInsights
                                                                                                                                           Data Warehouse
                                 Productivity Tools and Optimization                                                                         InfoSphere
                                                                                                                                             Warehouse

                          Workload Management                         Consumability and
                            and Optimization                          Management Tools                                                         Database

                                                                                                                                                 DB2
                                   Open Source Foundation Compnents
                                                                                                                                             Data Growth
                                                                                                                                             Management
                         Eclipse     Oozie        Hadoop      HBase       Pig    Lucene      Jaql
                                                                                                                                           InfoSphere Optim



                                                                                                                                                Seite : 10
Information Management


 IBM Netezza für Big Data Analyse

                         •  IBM Netezza ist eine DWH Appliance mit MPP
                            Architektur, Hardware basierender
                            Abfragebeschleunigung und in-Datenbank
                            Ausführung von Analysealgorithmen

                         •  Das Appliance Konzept ermöglicht extrem hohe
                            Analyse Leistung ohne Tuning

                         •  Ideal geeignet für Big Data Analyse auf Daten, die im
                            relationalen Modell untergebracht werden können

                         •  In-Database Analysen (z.B. Data Mining, Spatial,
                            Predictive Analysis) out of the box
                         •  Zusätzlich Unterstützung von Hadoop Map/Reduce
                            Algorithmen direkt auf Netezza


                                                                          Seite : 11
Information Management


 Integration von IBM Data Warehouse und BigInsights
        Netezza                    Infosphere Warehouse




                                                                         SQL
                            Cubing services             DB2




      JDBC Connector     Jaql client   JaqlSubmit UDF   HDFSRead UDF




                                                                  Http
       Http

                                       Infosphere BigInsights




          Jaql server
                           Persistent data (MapReduce repository)


                                                                               Seite : 12
Information Management


 Streams und BigInsights – Verfeinerung eines
 Analysemodells
  •  Da die Algorithmen sowohl in Streams als auch in
                                                                Visualisierung sowohl von
     BigInsights verwendet werden können lassen                 Echzeit-Analysen als auch
     sich closed-loop Projekte leicht umsetzen                   von Analysen auf Basis
                                                                    historischer Daten




                         InfoSphere                                      InfoSphere
                         Streams                                         BigInsights &
                                                                         Data Warehouse
                                      1.  Daten laden
           Daten

                                      2.  Modell erzeugen
                                          und verfeinern                        Daten-
                                                                             Integration,
      Laden von Daten,                                                       Data Mining,
      Datenaufbereitung,                    Control                            Machine
       Echtzeit-Analyse,                     flow                             Learning,
      Modell Validierung                                                      Statistical
                                                                              Modelling


                                      3.  Adaptives
                                          analytisches Modell
                                                                                     Seite : 13
Information Management


 Big Data muss ein integrierter Bestandteil der
 Informationsarchitektur eines Unternehmens sein
           Enterprise                    Business Analytics
      Content Management




                                           Information Integration &
                                                 Federation
                                               Data Warehouse




                                                                  Big Data
                                                                 Big Data
                           Information
      Data                 Governance
   Management

                                                                       Seite : 14
Information Management


 BigInsights in der IBM SmartCloud Enterprise

  •  Ihr eigener Hadoop Cluster in der IBM
     Cloud in weniger als 30 Minuten

  •  Benötigt keine eigene Hardware, keine
     Installation, keine Wartung

  •  Hadoop Cluster kann in einem
     beliebigen IBM Cloud Data Center
     platziert werden

  •  Geringe Gebühren, die pro Stunde
     berechnet werden

  •  Start mit lizenzfreiem BigInsights Basic
     und einfache Umstellung auf die
     BigInsights Enterprise Version

                                                Seite : 15
Information Management


 BigInsights in der Cloud
 Einfaches Kennenlernen von Hadoop
  •  Online Kurs erlaubt das Lernen am
     Standort ihrer Wahl mit freier
     Zeiteinteilung

  •  Kurse und Kursmaterial kostenfrei

  •  Cloud basierte Sandbox für Übungen

  •  Bereits mehr als 8500 Teilnehmer




                                          Seite : 16
Information Management


 Big Data und Watson
 Big Data Technology wurde genutzt um die          Watson kann Informationen aus Big Data
 Wissensdatenbank von Watson zu bauen!              zur erweiterten Analyse konsumieren!


      Watson verwendete das Apache
    Hadoop Framework zur Verteilung der
   Workload beim Laden der Informationen                           CRM Data
              in das Memory"                       POS Data                            Social Media

                  ~200 Millionen Textseiten
                  (Um Jeopardy zu spielen!)
                                                                                        Analyseergebnisse
                                                                                        -  Kaufverhalten
                                                                                        -  Soziale Beziehungen
                                                                                        -  Trends
                                                              InfoSphere BigInsights




                                        Watson‘s
                                        Memory                                              Erweiterte
                                                                                            Analyse und
                                                                                            Suche




                                                                                                   Seite : 17
THINK
Information Management




        Variety           Nutzen sie bereits das Potential ihrer
                          unstrukturierten Daten?



                          Können sie durch Analyse in Echtzeit besser
        Velocity          werden?



                          Sammeln sie die Daten nur oder nutzen sie
        Volume            diese auch?



                         ibm.com/bigdata
                                                                        Seite : 18
Wilfried Hoge
Leading Technical Sales Professional
Senior IT Architect Information Management
IBM Deutschland




                                             Seite : 19

Weitere ähnliche Inhalte

Was ist angesagt?

Rbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastruktur
Rene Burgener
 

Was ist angesagt? (20)

Big Data, Big Brother
Big Data, Big BrotherBig Data, Big Brother
Big Data, Big Brother
 
Datenintegrität für moderne Cloud Data Warehouse (MDWH) und Analytics Archite...
Datenintegrität für moderne Cloud Data Warehouse (MDWH) und Analytics Archite...Datenintegrität für moderne Cloud Data Warehouse (MDWH) und Analytics Archite...
Datenintegrität für moderne Cloud Data Warehouse (MDWH) und Analytics Archite...
 
Wirksames Stammdatenmanagement
Wirksames StammdatenmanagementWirksames Stammdatenmanagement
Wirksames Stammdatenmanagement
 
2013 Vortrag BIG DATA Uli Coenen
2013 Vortrag BIG DATA Uli Coenen2013 Vortrag BIG DATA Uli Coenen
2013 Vortrag BIG DATA Uli Coenen
 
GraphTalk Berlin - Deutschlands erstes Entscheidernetzwerk mit Neo4j
GraphTalk Berlin - Deutschlands erstes Entscheidernetzwerk mit Neo4jGraphTalk Berlin - Deutschlands erstes Entscheidernetzwerk mit Neo4j
GraphTalk Berlin - Deutschlands erstes Entscheidernetzwerk mit Neo4j
 
Big Data Anwendungen und Infrastrukturen
Big Data Anwendungen und InfrastrukturenBig Data Anwendungen und Infrastrukturen
Big Data Anwendungen und Infrastrukturen
 
Agile Datenanalsyse - der schnelle Weg zum Mehrwert
Agile Datenanalsyse - der schnelle Weg zum MehrwertAgile Datenanalsyse - der schnelle Weg zum Mehrwert
Agile Datenanalsyse - der schnelle Weg zum Mehrwert
 
Big Data und Business Intelligence
Big Data und Business IntelligenceBig Data und Business Intelligence
Big Data und Business Intelligence
 
Big/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overviewBig/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overview
 
DE - Module 6 - The future of Smart Data
DE - Module 6 - The future of Smart DataDE - Module 6 - The future of Smart Data
DE - Module 6 - The future of Smart Data
 
Fujitsu Storage Days 2018 - Erfahrungsbericht crisp research
Fujitsu Storage Days 2018 - Erfahrungsbericht crisp researchFujitsu Storage Days 2018 - Erfahrungsbericht crisp research
Fujitsu Storage Days 2018 - Erfahrungsbericht crisp research
 
IT Trends 2011 - und welchen Einfluss Business Analytics darauf hat
IT Trends 2011 - und welchen Einfluss Business Analytics darauf hatIT Trends 2011 - und welchen Einfluss Business Analytics darauf hat
IT Trends 2011 - und welchen Einfluss Business Analytics darauf hat
 
Analytics meets Big Data – R/Python auf der Hadoop/Spark-Plattform
Analytics meets Big Data – R/Python auf der Hadoop/Spark-PlattformAnalytics meets Big Data – R/Python auf der Hadoop/Spark-Plattform
Analytics meets Big Data – R/Python auf der Hadoop/Spark-Plattform
 
Linked Data - Das Ende des Dokuments?
Linked Data - Das Ende des Dokuments?Linked Data - Das Ende des Dokuments?
Linked Data - Das Ende des Dokuments?
 
Bedarfsprognosen für optimale Warenverfügbarkeit
Bedarfsprognosen für optimale WarenverfügbarkeitBedarfsprognosen für optimale Warenverfügbarkeit
Bedarfsprognosen für optimale Warenverfügbarkeit
 
Neo4j Use Cases - Graphdatenbanken im Einsatz
Neo4j Use Cases - Graphdatenbanken im EinsatzNeo4j Use Cases - Graphdatenbanken im Einsatz
Neo4j Use Cases - Graphdatenbanken im Einsatz
 
Digitale Transformation in der Finanzbranche
Digitale Transformation in der FinanzbrancheDigitale Transformation in der Finanzbranche
Digitale Transformation in der Finanzbranche
 
Data-Driven Systems - Overview Presentation at InES Symposium 2013
Data-Driven Systems - Overview Presentation at InES Symposium 2013Data-Driven Systems - Overview Presentation at InES Symposium 2013
Data-Driven Systems - Overview Presentation at InES Symposium 2013
 
Rbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastruktur
 
Warum NoSQL Datenbanken auf dem Vormarsch sind
Warum NoSQL Datenbanken auf dem Vormarsch sindWarum NoSQL Datenbanken auf dem Vormarsch sind
Warum NoSQL Datenbanken auf dem Vormarsch sind
 

Andere mochten auch

Systems biology: Bioinformatics on complete biological system
Systems biology: Bioinformatics on complete biological systemSystems biology: Bioinformatics on complete biological system
Systems biology: Bioinformatics on complete biological system
Lars Juhl Jensen
 
Systems biology - Understanding biology at the systems level
Systems biology - Understanding biology at the systems levelSystems biology - Understanding biology at the systems level
Systems biology - Understanding biology at the systems level
Lars Juhl Jensen
 

Andere mochten auch (20)

Donald Knuth
Donald KnuthDonald Knuth
Donald Knuth
 
PO WER - XX LO Gdańsk - Alan Turing
PO WER - XX LO Gdańsk - Alan TuringPO WER - XX LO Gdańsk - Alan Turing
PO WER - XX LO Gdańsk - Alan Turing
 
Alan Turing Scientist Unlimited | Turing100@Persistent Systems
Alan Turing Scientist Unlimited | Turing100@Persistent SystemsAlan Turing Scientist Unlimited | Turing100@Persistent Systems
Alan Turing Scientist Unlimited | Turing100@Persistent Systems
 
DNA Information and Creation (PDF)
DNA Information and Creation (PDF)DNA Information and Creation (PDF)
DNA Information and Creation (PDF)
 
System biology and its tools
System biology and its toolsSystem biology and its tools
System biology and its tools
 
Job ppt1
Job ppt1Job ppt1
Job ppt1
 
LSESU a Taste of R Language Workshop
LSESU a Taste of R Language WorkshopLSESU a Taste of R Language Workshop
LSESU a Taste of R Language Workshop
 
Python for Data Science
Python for Data SciencePython for Data Science
Python for Data Science
 
The Computer Scientist and the Cleaner v4
The Computer Scientist and the Cleaner v4The Computer Scientist and the Cleaner v4
The Computer Scientist and the Cleaner v4
 
Computational Approaches to Systems Biology
Computational Approaches to Systems BiologyComputational Approaches to Systems Biology
Computational Approaches to Systems Biology
 
Computational Systems Biology (JCSB)
Computational Systems Biology (JCSB)Computational Systems Biology (JCSB)
Computational Systems Biology (JCSB)
 
Day in the Life of a Computer Scientist
Day in the Life of a Computer ScientistDay in the Life of a Computer Scientist
Day in the Life of a Computer Scientist
 
Tutorial 1: Your First Science App - Araport Developer Workshop
Tutorial 1: Your First Science App - Araport Developer WorkshopTutorial 1: Your First Science App - Araport Developer Workshop
Tutorial 1: Your First Science App - Araport Developer Workshop
 
Data Scientist - The Sexiest Job of the 21st Century?
Data Scientist - The Sexiest Job of the 21st Century?Data Scientist - The Sexiest Job of the 21st Century?
Data Scientist - The Sexiest Job of the 21st Century?
 
Systems biology: Bioinformatics on complete biological system
Systems biology: Bioinformatics on complete biological systemSystems biology: Bioinformatics on complete biological system
Systems biology: Bioinformatics on complete biological system
 
Multi-omics infrastructure and data for R/Bioconductor
Multi-omics infrastructure and data for R/BioconductorMulti-omics infrastructure and data for R/Bioconductor
Multi-omics infrastructure and data for R/Bioconductor
 
Systems biology - Understanding biology at the systems level
Systems biology - Understanding biology at the systems levelSystems biology - Understanding biology at the systems level
Systems biology - Understanding biology at the systems level
 
Do you know what k-Means? Cluster-Analysen
Do you know what k-Means? Cluster-Analysen Do you know what k-Means? Cluster-Analysen
Do you know what k-Means? Cluster-Analysen
 
Zwischen Browser, Code & Photoshop - aus dem Leben eines Webworkers
Zwischen Browser, Code & Photoshop - aus dem Leben eines WebworkersZwischen Browser, Code & Photoshop - aus dem Leben eines Webworkers
Zwischen Browser, Code & Photoshop - aus dem Leben eines Webworkers
 
Apps for Science - Elsevier Developer Network Workshop 201102
Apps for Science - Elsevier Developer Network Workshop 201102Apps for Science - Elsevier Developer Network Workshop 201102
Apps for Science - Elsevier Developer Network Workshop 201102
 

Ähnlich wie IBM - Big Value from Big Data

Webinar: Typische MongoDB Anwendungsfälle (Common MongoDB Use Cases) 
Webinar: Typische MongoDB Anwendungsfälle (Common MongoDB Use Cases) Webinar: Typische MongoDB Anwendungsfälle (Common MongoDB Use Cases) 
Webinar: Typische MongoDB Anwendungsfälle (Common MongoDB Use Cases) 
MongoSF
 
Kroll Ontrack Datenverfügbarkeit
Kroll Ontrack DatenverfügbarkeitKroll Ontrack Datenverfügbarkeit
Kroll Ontrack Datenverfügbarkeit
Kroll Ontrack GmbH
 

Ähnlich wie IBM - Big Value from Big Data (12)

Big Data - Die große Innovation?
Big Data - Die große Innovation?Big Data - Die große Innovation?
Big Data - Die große Innovation?
 
Data Mining und OLAP
Data Mining und OLAPData Mining und OLAP
Data Mining und OLAP
 
Big Data - Eine Tour d'Horizon
Big Data - Eine Tour d'HorizonBig Data - Eine Tour d'Horizon
Big Data - Eine Tour d'Horizon
 
Webinar: Typische MongoDB Anwendungsfälle (Common MongoDB Use Cases) 
Webinar: Typische MongoDB Anwendungsfälle (Common MongoDB Use Cases) Webinar: Typische MongoDB Anwendungsfälle (Common MongoDB Use Cases) 
Webinar: Typische MongoDB Anwendungsfälle (Common MongoDB Use Cases) 
 
OpenDMA - Daten Management Solution
OpenDMA  - Daten Management SolutionOpenDMA  - Daten Management Solution
OpenDMA - Daten Management Solution
 
Cyber Crime leeds to Tape Air-Gap Protection
Cyber Crime leeds to Tape Air-Gap ProtectionCyber Crime leeds to Tape Air-Gap Protection
Cyber Crime leeds to Tape Air-Gap Protection
 
Einfuhrung datascience
Einfuhrung datascienceEinfuhrung datascience
Einfuhrung datascience
 
Darf es ein bisschen mehr sein - Konzepte und Strategien zur Bewältigung groß...
Darf es ein bisschen mehr sein - Konzepte und Strategien zur Bewältigung groß...Darf es ein bisschen mehr sein - Konzepte und Strategien zur Bewältigung groß...
Darf es ein bisschen mehr sein - Konzepte und Strategien zur Bewältigung groß...
 
Darf es ein bisschen mehr sein - Konzepte Strategien zur Bewältigung großer u...
Darf es ein bisschen mehr sein - Konzepte Strategien zur Bewältigung großer u...Darf es ein bisschen mehr sein - Konzepte Strategien zur Bewältigung großer u...
Darf es ein bisschen mehr sein - Konzepte Strategien zur Bewältigung großer u...
 
Big data trend oder hype slideshare
Big data   trend oder hype slideshareBig data   trend oder hype slideshare
Big data trend oder hype slideshare
 
Hadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-InfrastrukturenHadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-Infrastrukturen
 
Kroll Ontrack Datenverfügbarkeit
Kroll Ontrack DatenverfügbarkeitKroll Ontrack Datenverfügbarkeit
Kroll Ontrack Datenverfügbarkeit
 

Mehr von Wilfried Hoge

2012.04.26 big insights streams im forum2
2012.04.26 big insights streams im forum22012.04.26 big insights streams im forum2
2012.04.26 big insights streams im forum2
Wilfried Hoge
 

Mehr von Wilfried Hoge (11)

Cloud Data Services - from prototyping to scalable analytics on cloud
Cloud Data Services - from prototyping to scalable analytics on cloudCloud Data Services - from prototyping to scalable analytics on cloud
Cloud Data Services - from prototyping to scalable analytics on cloud
 
Is it harder to find a taxi when it is raining?
Is it harder to find a taxi when it is raining? Is it harder to find a taxi when it is raining?
Is it harder to find a taxi when it is raining?
 
innovations born in the cloud - cloud data services from IBM to prototype you...
innovations born in the cloud - cloud data services from IBM to prototype you...innovations born in the cloud - cloud data services from IBM to prototype you...
innovations born in the cloud - cloud data services from IBM to prototype you...
 
2015.05.07 watson rp15
2015.05.07 watson rp152015.05.07 watson rp15
2015.05.07 watson rp15
 
Twitter analytics in Bluemix
Twitter analytics in BluemixTwitter analytics in Bluemix
Twitter analytics in Bluemix
 
InfoSphere BigInsights - Analytics power for Hadoop - field experience
InfoSphere BigInsights - Analytics power for Hadoop - field experienceInfoSphere BigInsights - Analytics power for Hadoop - field experience
InfoSphere BigInsights - Analytics power for Hadoop - field experience
 
Big SQL 3.0 - Fast and easy SQL on Hadoop
Big SQL 3.0 - Fast and easy SQL on HadoopBig SQL 3.0 - Fast and easy SQL on Hadoop
Big SQL 3.0 - Fast and easy SQL on Hadoop
 
2014.07.11 biginsights data2014
2014.07.11 biginsights data20142014.07.11 biginsights data2014
2014.07.11 biginsights data2014
 
2013.12.12 big data heise webcast
2013.12.12 big data heise webcast2013.12.12 big data heise webcast
2013.12.12 big data heise webcast
 
InfoSphere BigInsights
InfoSphere BigInsightsInfoSphere BigInsights
InfoSphere BigInsights
 
2012.04.26 big insights streams im forum2
2012.04.26 big insights streams im forum22012.04.26 big insights streams im forum2
2012.04.26 big insights streams im forum2
 

Kürzlich hochgeladen

PETAVIT LIM TZE.pdfasasasasasaaaaaaaaaaaaa
PETAVIT LIM TZE.pdfasasasasasaaaaaaaaaaaaaPETAVIT LIM TZE.pdfasasasasasaaaaaaaaaaaaa
PETAVIT LIM TZE.pdfasasasasasaaaaaaaaaaaaa
lawrenceads01
 

Kürzlich hochgeladen (6)

Das Experiment zu Gunsten der Metropol-Region Rhein-Neckar
Das Experiment zu Gunsten der Metropol-Region Rhein-NeckarDas Experiment zu Gunsten der Metropol-Region Rhein-Neckar
Das Experiment zu Gunsten der Metropol-Region Rhein-Neckar
 
Typische Engpässe im Projektmanagement.pdf
Typische Engpässe im Projektmanagement.pdfTypische Engpässe im Projektmanagement.pdf
Typische Engpässe im Projektmanagement.pdf
 
Die Rolle von Change Agents zwischen Schmuckeremiten und Rebellen
Die Rolle von Change Agents zwischen Schmuckeremiten und RebellenDie Rolle von Change Agents zwischen Schmuckeremiten und Rebellen
Die Rolle von Change Agents zwischen Schmuckeremiten und Rebellen
 
"Team-Doing": Arbeiten, lernen, Spaß haben – alles gemeinsam und alles gleich...
"Team-Doing": Arbeiten, lernen, Spaß haben – alles gemeinsam und alles gleich..."Team-Doing": Arbeiten, lernen, Spaß haben – alles gemeinsam und alles gleich...
"Team-Doing": Arbeiten, lernen, Spaß haben – alles gemeinsam und alles gleich...
 
ICV Mediadaten 2024 - Ihre Möglichkeiten, auf den Plattformen des Internation...
ICV Mediadaten 2024 - Ihre Möglichkeiten, auf den Plattformen des Internation...ICV Mediadaten 2024 - Ihre Möglichkeiten, auf den Plattformen des Internation...
ICV Mediadaten 2024 - Ihre Möglichkeiten, auf den Plattformen des Internation...
 
PETAVIT LIM TZE.pdfasasasasasaaaaaaaaaaaaa
PETAVIT LIM TZE.pdfasasasasasaaaaaaaaaaaaaPETAVIT LIM TZE.pdfasasasasasaaaaaaaaaaaaa
PETAVIT LIM TZE.pdfasasasasasaaaaaaaaaaaaa
 

IBM - Big Value from Big Data

  • 1. Wilfried Hoge Leading Technical Sales Professional Senior IT Architect Information Management IBM Deutschland Big Value from Big Data Fertig werden mit den 3 wichtigsten Herausforderungen: Volume, Velocity und Variety [=V3] Seite : 1
  • 2. Information Management Was ist Big Data? 2020 •  Datenmengen wachsen immer schneller – in allen Unternehmen 44x mehr Daten im 35 zettabytes und in allen Branchen kommenden Jahrzehnt •  Die Daten werden häufig von einer großen Anzahl Menschen (z.B. Social Media) oder von 80% der Daten sind Maschinen (z.B. Ticker oder unstrukturiert Messgeräte) generiert •  Die meisten Daten sind nicht einfach strukturiert sondern 2009 haben komplexe oder 800,000 petabytes unbekannte Strukturen und der Aufwand für die Analyse und Anpassung der Strukturierung ist sehr groß •  Informationen in diesen Daten enthalten große Chancen und großen Wert und daher ist die effiziente Analyse dieser Daten von strategischer Bedeutung •  Big ist relativ zu dem, was bisher an Daten in einem Unternehmen verarbeitet werden konnte, und bezieht sich sowohl auf die Datenmenge als auch auf die Verarbeitungsgeschwindigkeit Seite : 2
  • 3. Information Management Die Big Data Herausforderung Nutzen zu ziehen aus diesen riesigen Datenmengen, die so verschieden strukturiert sind und so schnell entstehen, ist mit bisherigen Technologien nicht möglich gewesen. Eine Technologie für BigData muss geeignet sein, die drei wichtigsten Dimensionen von BigData zu beherrschen: Variety, Velocity, Volume (=V3) Verarbeitung der Komplexität von relationalen und nicht- Variety relationalen Datentypen und Schemas Analyse von Daten direkt Velocity während sie entstehen Effizientes skalieren für große Volume Datenmengen Seite : 3
  • 4. Information Management Volume und Velocity – zwei Dimensionen für Big Data Exa Wind Turbine Placement & Operation Up to 10,000 PBs of data Times Analysis time to 3 days from 3 weeks Peta larger 1220 IBM iDataPlex nodes Data Scale DeepQA Tera 100s GB for Deep Analytics Data at Rest Data Scale 3 sec/decision Power7, 15TB memory Giga Telco Promotions 100,000 records/sec, 6B/day Traditional Data 10 ms/decision Mega Warehouse and 270TB for Deep Analytics Business Intelligence Up to 10,000 Data in Motion times faster Security 600,000 records/sec, 50B/day Kilo 1-2 ms/decision yr mo wk day hr min sec … ms µs 320TB for Deep Analytics Occasional Frequent Real-time Decision Frequency Seite : 4
  • 5. Information Management Massiv parallele Verarbeitung für Volume und Velocity •  Divide and conquer ist eine bewährte Methode zur Bewältigung von umfangreichen Berechnungen •  Jeder Knoten verwaltet einen Teil der Daten •  Jeder Knoten kann Algorithmen auf seinen Daten ausführen •  Viele verteilte Knoten lösen ein Problem, indem sie parallel Teilaufgaben lösen •  Eine übergeordnete Kontrolle schickt die passenden Algorithmen zu den Daten Anfrageknoten Berechnungs-/Speicherknoten Seite : 5
  • 6. Information Management Variety – Speicherung und Analyse neuer Datentypen •  Daten aus den Quellen Web (z.B. Logs, Clickstream), Dokumente (z.B. Texte, Protokolle, E-Mails), RFIDs (XML, Spatial) werden in vielen Unternehmen bereits gesammelt •  Die Datenstrukturen sind in den wenigsten Fällen geeignet für die Verarbeitung in traditionellen DWH Umgebungen, die meist auf relationale Datenstrukturen beschränkt sind •  Aufwändige ETL Prozesse und/oder Betrachtung von Ausschnitten machen sie konsumierbar •  Diese Daten aber in Gänze zu analysieren erfordert eine direkte Verarbeitung von komplexeren Datentypen •  Hinzu kommen Datentypen, die nicht leicht in relationale Strukturen zu überführen sind und daher i.d.R. gar nicht berücksichtigt wurden (z.B. Audio, Bilder, Video) •  Datenspeicher, die in der Lage sind die Daten in ihrer Vielfalt direkt zu behandeln, und Algorithmen, die diese Daten verarbeiten, sind notwendig. Seite : 6
  • 7. Information Management Variety – Explorative Analysen für Big Data •  IBM Research hat Algorithmen zur explorativen Analyse entwickelt •  Diese Algorithmen erlauben die Analyse von Daten in ihrem ursprünglichen Datenformat Text Statistics Image & Video Mining Acoustic Predictive Times Series Financial Geospatial Mathematical IBM macht den Unterschied – signifikante Investitionen in die Forschung und Entwicklung von Analysealgorithmen für Big Data Seite : 7
  • 8. Information Management Big  Data  Ansatz  ergänzt  das  bisherige  Vorgehensmodell     Traditionelles Vorgehen Big Data Vorgehen Strukturierung & Wiederholbare Analyse Iterative & Forschende Analyse Fachbereich IT Bestimmen, welche Stellen eine Plattform Fragen gestellt werden für kreative Erkundung bereit IT Fachbereich Strukturiert die Daten, Erkundet, welche um die Fragen zu Informationen in den beantworten Daten stecken Monatlicher Umsatz Reputation der Marke Profitabilität Produkt Strategie Kundenanalyse Maximierung der Ausutzung Seite : 8
  • 9. Information Management Eine Kombination von zwei Technologien für Big Data •  Um den 3 Dimensionen von Big Data – Volume, Velocity und Variety – gerecht zu werden ist eine Kombination von zwei Technologien sinnvoll •  Analyse von Big Data während der Entstehung – Streaming Analytics •  Die Daten werden analysiert sobald sie im System ankommen •  Die einfließenden Datenströme werden analysiert und können mit gespeicherten Informationen in Verbindung gebracht werden •  Aus der Analyse werden sofort Aktivitäten (Events) abgeleitet ➯  InfoSphere Streams •  Speicherung von großen Datenmengen und flexible Analyse dieser Daten – Internet Scale Analytics •  Die Daten werden gespeichert und stehen für verschiedenste Analysen bereit •  Operationen auf diesen Daten können effizient ausgeführt werden •  Basiert auf dem Hadoop Framework ➯  InfoSphere BigInsights Seite : 9
  • 10. Information Management IBM Big Data Platform IBM Big Data Client and Partner Marketing Solutions Solutions IBM Unica Big Data Accelerators Content Analytics ECM Text Statistics Financial Geospatial Acoustic Image/Video Mining Times Series Mathematical Business Analytics Cognos & SPSS Connectors Applications Blueprints Warehouse InforSphere Information Server Appliance Big Data Enterprise Engines IBM Netezza Master Data Management InfoSphere MDM InfoSphere Streams InfoSphere BigInsights Data Warehouse Productivity Tools and Optimization InfoSphere Warehouse Workload Management Consumability and and Optimization Management Tools Database DB2 Open Source Foundation Compnents Data Growth Management Eclipse Oozie Hadoop HBase Pig Lucene Jaql InfoSphere Optim Seite : 10
  • 11. Information Management IBM Netezza für Big Data Analyse •  IBM Netezza ist eine DWH Appliance mit MPP Architektur, Hardware basierender Abfragebeschleunigung und in-Datenbank Ausführung von Analysealgorithmen •  Das Appliance Konzept ermöglicht extrem hohe Analyse Leistung ohne Tuning •  Ideal geeignet für Big Data Analyse auf Daten, die im relationalen Modell untergebracht werden können •  In-Database Analysen (z.B. Data Mining, Spatial, Predictive Analysis) out of the box •  Zusätzlich Unterstützung von Hadoop Map/Reduce Algorithmen direkt auf Netezza Seite : 11
  • 12. Information Management Integration von IBM Data Warehouse und BigInsights Netezza Infosphere Warehouse SQL Cubing services DB2 JDBC Connector Jaql client JaqlSubmit UDF HDFSRead UDF Http Http Infosphere BigInsights Jaql server Persistent data (MapReduce repository) Seite : 12
  • 13. Information Management Streams und BigInsights – Verfeinerung eines Analysemodells •  Da die Algorithmen sowohl in Streams als auch in Visualisierung sowohl von BigInsights verwendet werden können lassen Echzeit-Analysen als auch sich closed-loop Projekte leicht umsetzen von Analysen auf Basis historischer Daten InfoSphere InfoSphere Streams BigInsights & Data Warehouse 1.  Daten laden Daten 2.  Modell erzeugen und verfeinern Daten- Integration, Laden von Daten, Data Mining, Datenaufbereitung, Control Machine Echtzeit-Analyse, flow Learning, Modell Validierung Statistical Modelling 3.  Adaptives analytisches Modell Seite : 13
  • 14. Information Management Big Data muss ein integrierter Bestandteil der Informationsarchitektur eines Unternehmens sein Enterprise Business Analytics Content Management Information Integration & Federation Data Warehouse Big Data Big Data Information Data Governance Management Seite : 14
  • 15. Information Management BigInsights in der IBM SmartCloud Enterprise •  Ihr eigener Hadoop Cluster in der IBM Cloud in weniger als 30 Minuten •  Benötigt keine eigene Hardware, keine Installation, keine Wartung •  Hadoop Cluster kann in einem beliebigen IBM Cloud Data Center platziert werden •  Geringe Gebühren, die pro Stunde berechnet werden •  Start mit lizenzfreiem BigInsights Basic und einfache Umstellung auf die BigInsights Enterprise Version Seite : 15
  • 16. Information Management BigInsights in der Cloud Einfaches Kennenlernen von Hadoop •  Online Kurs erlaubt das Lernen am Standort ihrer Wahl mit freier Zeiteinteilung •  Kurse und Kursmaterial kostenfrei •  Cloud basierte Sandbox für Übungen •  Bereits mehr als 8500 Teilnehmer Seite : 16
  • 17. Information Management Big Data und Watson Big Data Technology wurde genutzt um die Watson kann Informationen aus Big Data Wissensdatenbank von Watson zu bauen! zur erweiterten Analyse konsumieren! Watson verwendete das Apache Hadoop Framework zur Verteilung der Workload beim Laden der Informationen CRM Data in das Memory" POS Data Social Media ~200 Millionen Textseiten (Um Jeopardy zu spielen!) Analyseergebnisse -  Kaufverhalten -  Soziale Beziehungen -  Trends InfoSphere BigInsights Watson‘s Memory Erweiterte Analyse und Suche Seite : 17
  • 18. THINK Information Management Variety Nutzen sie bereits das Potential ihrer unstrukturierten Daten? Können sie durch Analyse in Echtzeit besser Velocity werden? Sammeln sie die Daten nur oder nutzen sie Volume diese auch? ibm.com/bigdata Seite : 18
  • 19. Wilfried Hoge Leading Technical Sales Professional Senior IT Architect Information Management IBM Deutschland Seite : 19