SlideShare ist ein Scribd-Unternehmen logo
Big Data – Ein technischer Überblick
Copyright ©: 2015 OnPage.org GmbH
Twitter: @danny_munich
Facebook: https://www.facebook.com/danny.linden2
Aus Gelsenkirchen
2011 nach München
2013 zu OnPage.org
Interessen: Webcrawling, Suchmaschinen(weniger SEO),
skalierbare Big Data Systeme
Über mich
Twitter: @danny_munich
Facebook: https://www.facebook.com/danny.linden2
E-mail: danny@onpage.org
Was bedeutet Big Data?
Wikipedia: „Big Data [...] bezeichnet Datenmengen, die zu groß oder zu komplex sind oder sich zu schnell
ändern, um sie mit händischen und klassischen Methoden der Datenverarbeitung auszuwerten. “
- Große Datenmengen speichern/verarbeiten: Terrabyte
- Schnelle Antwortzeiten
- Flexible Skalierung
- Fault tolerance
- Vorausplanen der benötigten Ressourcen
Anwendungsgebiete
Empfehlungssysteme
- Clustering,
- Recommandation
Analysen/Diagnosen
- Analytics
- Fraud-Protection
Prozessoptimierung
- Fertigung
- Lagerhaltung
Forschung
- Klima
- Krankheiten
Big Data Frameworks
Hadoop – Der VW Golf
Hadoop
- 2008 gestartet
- Basiert auf dem Map-Reduce Algorithmus von Google
- Besteht ursprünglich aus MapReduce und HDFS
- Diverse Erweiterungen / Layer oberhalb von Map-Reduce
HDFS - Hadoop Distributed File System
- Global verteilbar
- Robust auf Java
- Ausfallsicher / HA möglich
- Skalierbar
- Auf low-cost Hardware
- High-level APIs (REST)
Map-Reduce - Hadoop Distributed File System
1. Input
2. Map-Phase
3. Shuffle-Phase
4. Reduce Phase
5. Output
Nice Data Format
HDFS + Map-Reduce: Datenlokalität statt Netzwerklast
Open-Source Erweiterungen für Hadoop
Apache PIG
Apache HBase
Apache Hive
Apache Oozie
HUE
Apache Sqoop
Apache Nutch
Apache Solr
Apache mahout
Real-Life Use-Cases für Hadoop
- Logfile-Analyse
- Webcrawling / eigene Suchmaschine (Apache Solr & Apache Nutch)
- Analyse großer Historischer Datenmengen (Produktdaten)
- Textanalyse (TF-IDF usw...)
- Machine-Learning
- Recommandation
- Clustering
- ...
Datenquellen zum spielen:
- Wikipedia Dumps: https://dumps.wikimedia.org
- Google Ngrams: http://bit.ly/1gfTzNG
- Über 1.000 TB gecrawltes Web: http://commoncrawl.org
- AWS Public Datasets: http://aws.amazon.com/datasets
- 2,9 Mrd Entitäten: http://www.freebase.com
- ...
VMware / VirtualBox:
- MapR: https://www.mapr.com/products/mapr-sandbox-hadoop
- Cloudera: http://www.cloudera.com/content/cloudera/en/downloads/quickstart_vms/cdh-5-4-x.html
- Hortonworks: https://hortonworks.com/products/hortonworks-sandbox/
Distributionen zum testen:
Datenbanken:
Von SQL zu NoSQL zu NewSQL
Relationale Datenbanken
- Wird mittels SQL Abgefragt
- ACID
- Normalisierung
Nachteile von Relationalen Datenbanken:
Maximal 2 von 3
Eigenschaften möglich
RDMS nicht zur
Skalierung geeignet?
NoSQL Datenbanken
- Key-Value
- Column-Based
- Document
- Graph
Key-Value Datenbanken
- Einfach Aufgebaut: GET/PUT/DELETE
- Verwenden von Zusammengesetzten Keys:
- DB-Systeme: Redis, Riak, Cassandra, DynamoDB
Key-Value Datenbanken
Beispiel 1:
- GET <Eventid>
- GET besucher = 100.000
- GET <Eventid><Datum>
- GET besucher:28-04-2015 = 1.000
- GET <Eventid><Datum><Stunde>
- GET besucher:28-04-2015-18-00 = 50
Beispiel 2:
- GET <Person><Datenfeld>
- GET P1:Vorname = Max
- GET P1:Nachname = Mustermann
- GET P1:Tel = [0151-1234567, 0201-987654]
Column-Based Datenbanken
1,Schmidt,Josef,40000;2,Müller,Maria,50000;3,Meier,Julia,44000;
Klassisch Zeilenorientierte Speicherung:
1,2,3;Schmidt,Müller,Meier;Josef,Maria,Julia;40000,50000,44000;
Spaltenorientierte Speicherung:
SELECT * FROM tabelle WHERE Personalnr = 1;
SELECT SUM(Gehalt) FROM tabelle;
Column-Based Datenbanken
Bekannte Systeme:
- Hbase (Basiert auf Google BigTable, u.a bei Facebook)
- Cassandra (Ursprünglich Facebook, Digg, Twitter, Reddit)
- SimpleDB (Amazon AWS)
Document Datenbanken
Beispiel-Dokument, JSON:
db.users.find(
{ status: "A",
age: 55
} )
Beispiel-Dokument:
Graph Datenbanken
Als Graph abbilden:
- Social-Networks
- Verlinkungen
- uvm ...
Typische Abfragen:
Person X kennt Person
Y über Person Z
- Kombiniert SQL mit NoSQL
- ACID trotz Skalierbarkeit
NewSQL
- Google F1 basierend auf Google Spanner
- CockroachDB
- https://github.com/cockroachdb/cockroach
- Clustrix
- VoltDB
- MemSQL
- Pivotal's SQLFire
- SAP HANA
- FoundationDB
- NuoDB
More NoSQL Stuff
- Elasticsearch
- Auch als Datenbank nutzbar!
- https://crate.io
Die Cloud:
Big Data – Jetzt – Sofort - Alles
Cloud Service Provider
Die drei großen:
- Amazon AWS
- Google Cloud
- Microsoft Azure
Vorteile:
- Schnell beliebige Kapazität buchen
- Minuten/Stundenbasierte Abrechung
- Lineare skalierung
- Keine Upfront kosten
Cloud Anbieter
Cloud Anbieter
Amazon AWS Spot-Instances
Durch falsche (copy&paste)
Konfiguration
werden 2.150$ / Monat / Server
aus dem Fenster geworfen
Amazon AWS Services
Der versprochene Quick-Win ;)
Prediction.io
- Ready 2 use Machine-Learning System
- Basiert auf Spark (In-Memory Hadoop)
- Im AWS Marketplace verfügbar
- https://docs.prediction.io/install/launch-aws/
u.a:
- Recommendation
- Complementary Purchase
- Clustering
- Lead Scoring
- …
Fertige Module ua. für:
- Magento
- Wordpress
- ... uvm auf Github
Prediction.io
<?php
use predictionioEventClient;
$accessKey = 'IiVHNFnyNvWXqMqXxcIbQDqFRz5K0fe9e3QfqjKwvW3O';
$client = new EventClient($accessKey, 'http://localhost:7070');
$response = $client->setUser(5);
$response = $client->setItem('bookId1', array('itypes' => 1));
$client->recordUserActionOnItem('view', 5, 'bookId1');
$engineClient = new EngineClient('http://localhost:8000');
$response = $engineClient->sendQuery(array('uid'=>7, 'iids'=>array(1,2,3,4,5)));
print_r($rec);
Das wars!
Customer:
Twitter: @danny_munich
Facebook: https://www.facebook.com/danny.linden2
E-mail: danny@onpage.org
Achja: Wir suchen gute Entwickler:
https://de.onpage.org/about/jobs/

Weitere ähnliche Inhalte

Was ist angesagt?

Big/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overviewBig/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overview
OMM Solutions GmbH
 
GraphTalk Berlin - Deutschlands erstes Entscheidernetzwerk mit Neo4j
GraphTalk Berlin - Deutschlands erstes Entscheidernetzwerk mit Neo4jGraphTalk Berlin - Deutschlands erstes Entscheidernetzwerk mit Neo4j
GraphTalk Berlin - Deutschlands erstes Entscheidernetzwerk mit Neo4j
Neo4j
 
Wirksames Stammdatenmanagement
Wirksames StammdatenmanagementWirksames Stammdatenmanagement
Wirksames Stammdatenmanagement
CDQ - Sharing Data Excellence
 
Big Data Anwendungen und Infrastrukturen
Big Data Anwendungen und InfrastrukturenBig Data Anwendungen und Infrastrukturen
Big Data Anwendungen und Infrastrukturen
Fujitsu Central Europe
 
Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...
Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...
Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...
Spark Summit
 
Azure Data Factory – Data Management für die Cloud
Azure Data Factory – Data Management für die CloudAzure Data Factory – Data Management für die Cloud
Azure Data Factory – Data Management für die Cloud
inovex GmbH
 
Neo4j Use Cases - Graphdatenbanken im Einsatz
Neo4j Use Cases - Graphdatenbanken im EinsatzNeo4j Use Cases - Graphdatenbanken im Einsatz
Neo4j Use Cases - Graphdatenbanken im Einsatz
Neo4j
 
Google Data Studio – Erklärung und Einführung
Google Data Studio – Erklärung und EinführungGoogle Data Studio – Erklärung und Einführung
Google Data Studio – Erklärung und Einführung
Simon Flück
 
Data Virtualization - Supernova
Data Virtualization - SupernovaData Virtualization - Supernova
Data Virtualization - Supernova
Torsten Glunde
 
GWAVACon 2015: Micro Focus - Datenflut, kontrolliert in die richtigen Speicher
GWAVACon 2015: Micro Focus - Datenflut, kontrolliert in die richtigen SpeicherGWAVACon 2015: Micro Focus - Datenflut, kontrolliert in die richtigen Speicher
GWAVACon 2015: Micro Focus - Datenflut, kontrolliert in die richtigen Speicher
GWAVA
 
Data lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid ArchitecturesData lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid Architectures
Comsysto Reply GmbH
 
Rbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastruktur
Rene Burgener
 
The cloud 2011
The cloud 2011The cloud 2011
The cloud 2011
Sascha Oehl
 
Big Data, Big Brother
Big Data, Big BrotherBig Data, Big Brother
Big Data, Big Brother
Jakob Steinschaden
 
Dlr v1.2
Dlr v1.2Dlr v1.2
Dlr v1.2
Sascha Oehl
 
Clickstream Analysis with Spark
Clickstream Analysis with Spark Clickstream Analysis with Spark
Clickstream Analysis with Spark
Josef Adersberger
 
Linked Data - Das Ende des Dokuments?
Linked Data - Das Ende des Dokuments?Linked Data - Das Ende des Dokuments?
Linked Data - Das Ende des Dokuments?
Semantic Web Company
 

Was ist angesagt? (17)

Big/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overviewBig/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overview
 
GraphTalk Berlin - Deutschlands erstes Entscheidernetzwerk mit Neo4j
GraphTalk Berlin - Deutschlands erstes Entscheidernetzwerk mit Neo4jGraphTalk Berlin - Deutschlands erstes Entscheidernetzwerk mit Neo4j
GraphTalk Berlin - Deutschlands erstes Entscheidernetzwerk mit Neo4j
 
Wirksames Stammdatenmanagement
Wirksames StammdatenmanagementWirksames Stammdatenmanagement
Wirksames Stammdatenmanagement
 
Big Data Anwendungen und Infrastrukturen
Big Data Anwendungen und InfrastrukturenBig Data Anwendungen und Infrastrukturen
Big Data Anwendungen und Infrastrukturen
 
Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...
Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...
Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...
 
Azure Data Factory – Data Management für die Cloud
Azure Data Factory – Data Management für die CloudAzure Data Factory – Data Management für die Cloud
Azure Data Factory – Data Management für die Cloud
 
Neo4j Use Cases - Graphdatenbanken im Einsatz
Neo4j Use Cases - Graphdatenbanken im EinsatzNeo4j Use Cases - Graphdatenbanken im Einsatz
Neo4j Use Cases - Graphdatenbanken im Einsatz
 
Google Data Studio – Erklärung und Einführung
Google Data Studio – Erklärung und EinführungGoogle Data Studio – Erklärung und Einführung
Google Data Studio – Erklärung und Einführung
 
Data Virtualization - Supernova
Data Virtualization - SupernovaData Virtualization - Supernova
Data Virtualization - Supernova
 
GWAVACon 2015: Micro Focus - Datenflut, kontrolliert in die richtigen Speicher
GWAVACon 2015: Micro Focus - Datenflut, kontrolliert in die richtigen SpeicherGWAVACon 2015: Micro Focus - Datenflut, kontrolliert in die richtigen Speicher
GWAVACon 2015: Micro Focus - Datenflut, kontrolliert in die richtigen Speicher
 
Data lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid ArchitecturesData lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid Architectures
 
Rbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastruktur
 
The cloud 2011
The cloud 2011The cloud 2011
The cloud 2011
 
Big Data, Big Brother
Big Data, Big BrotherBig Data, Big Brother
Big Data, Big Brother
 
Dlr v1.2
Dlr v1.2Dlr v1.2
Dlr v1.2
 
Clickstream Analysis with Spark
Clickstream Analysis with Spark Clickstream Analysis with Spark
Clickstream Analysis with Spark
 
Linked Data - Das Ende des Dokuments?
Linked Data - Das Ende des Dokuments?Linked Data - Das Ende des Dokuments?
Linked Data - Das Ende des Dokuments?
 

Ähnlich wie Big Data Bullshit Bingo

OpenDMA - Daten Management Solution
OpenDMA  - Daten Management SolutionOpenDMA  - Daten Management Solution
OpenDMA - Daten Management Solution
Torsten Glunde
 
Wie baue ich ein DataWarehouse auf Basis Hadoop
Wie baue ich ein DataWarehouse auf Basis HadoopWie baue ich ein DataWarehouse auf Basis Hadoop
Wie baue ich ein DataWarehouse auf Basis Hadoop
Gerd König
 
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...
OPITZ CONSULTING Deutschland
 
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
AWS Germany
 
Agiles Data Mining mit Data Vault 2.0
Agiles Data Mining mit Data Vault 2.0Agiles Data Mining mit Data Vault 2.0
Agiles Data Mining mit Data Vault 2.0
Michael Olschimke
 
Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...
Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...
Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...
Cloudera, Inc.
 
BITKOM_Präsentation Data Intelligence Hub -Schwarz-Kouril
BITKOM_Präsentation Data Intelligence Hub -Schwarz-KourilBITKOM_Präsentation Data Intelligence Hub -Schwarz-Kouril
BITKOM_Präsentation Data Intelligence Hub -Schwarz-Kouril
Stefan Schwarz
 
Data Science: Gold schürfen im modernen Marketing
Data Science: Gold schürfen im modernen MarketingData Science: Gold schürfen im modernen Marketing
Data Science: Gold schürfen im modernen Marketing
SOMEXCLOUD
 
Giessen r user group treffen 10 05-2011 - foliensatz
Giessen r user group treffen 10 05-2011 - foliensatzGiessen r user group treffen 10 05-2011 - foliensatz
Giessen r user group treffen 10 05-2011 - foliensatz
masem research institute
 
Analytics für Einsteiger
Analytics für EinsteigerAnalytics für Einsteiger
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data Konnektivität
Trivadis
 
Big data trend oder hype slideshare
Big data   trend oder hype slideshareBig data   trend oder hype slideshare
Big data trend oder hype slideshare
Guido Oswald
 
Sabine Bühn, Bernd Aschauer (Aschauer IT & Business)
Sabine Bühn, Bernd Aschauer (Aschauer IT & Business)Sabine Bühn, Bernd Aschauer (Aschauer IT & Business)
Sabine Bühn, Bernd Aschauer (Aschauer IT & Business)
Praxistage
 
Modernes Rechenzentrum
Modernes Rechenzentrum Modernes Rechenzentrum
Modernes Rechenzentrum
Microsoft Österreich
 
worldiety GmbH - Datenanalyse
worldiety GmbH - Datenanalyse worldiety GmbH - Datenanalyse
worldiety GmbH - Datenanalyse
worldiety GmbH
 
Data Quadrant - Daten Management Methode
Data Quadrant - Daten Management MethodeData Quadrant - Daten Management Methode
Data Quadrant - Daten Management Methode
Torsten Glunde
 
Dotnet Cologne 2015: //Rebuild - Big Data Analysis End-to-End
Dotnet Cologne 2015: //Rebuild - Big Data Analysis End-to-EndDotnet Cologne 2015: //Rebuild - Big Data Analysis End-to-End
Dotnet Cologne 2015: //Rebuild - Big Data Analysis End-to-End
Olivia Klose
 
Market Research Meets Business Intelligence
Market Research Meets Business IntelligenceMarket Research Meets Business Intelligence
Market Research Meets Business Intelligence
DataLion
 
DBSAT – Die Oracle DATENBANK bzgl. PII Daten analysieren
DBSAT – Die Oracle DATENBANK bzgl. PII Daten analysierenDBSAT – Die Oracle DATENBANK bzgl. PII Daten analysieren
DBSAT – Die Oracle DATENBANK bzgl. PII Daten analysieren
Gunther Pippèrr
 
Sendung 17-12 Special: DSGVO, Security & Compliance
Sendung 17-12 Special: DSGVO, Security & ComplianceSendung 17-12 Special: DSGVO, Security & Compliance
Sendung 17-12 Special: DSGVO, Security & Compliance
Thomas Maier
 

Ähnlich wie Big Data Bullshit Bingo (20)

OpenDMA - Daten Management Solution
OpenDMA  - Daten Management SolutionOpenDMA  - Daten Management Solution
OpenDMA - Daten Management Solution
 
Wie baue ich ein DataWarehouse auf Basis Hadoop
Wie baue ich ein DataWarehouse auf Basis HadoopWie baue ich ein DataWarehouse auf Basis Hadoop
Wie baue ich ein DataWarehouse auf Basis Hadoop
 
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...
 
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
 
Agiles Data Mining mit Data Vault 2.0
Agiles Data Mining mit Data Vault 2.0Agiles Data Mining mit Data Vault 2.0
Agiles Data Mining mit Data Vault 2.0
 
Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...
Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...
Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...
 
BITKOM_Präsentation Data Intelligence Hub -Schwarz-Kouril
BITKOM_Präsentation Data Intelligence Hub -Schwarz-KourilBITKOM_Präsentation Data Intelligence Hub -Schwarz-Kouril
BITKOM_Präsentation Data Intelligence Hub -Schwarz-Kouril
 
Data Science: Gold schürfen im modernen Marketing
Data Science: Gold schürfen im modernen MarketingData Science: Gold schürfen im modernen Marketing
Data Science: Gold schürfen im modernen Marketing
 
Giessen r user group treffen 10 05-2011 - foliensatz
Giessen r user group treffen 10 05-2011 - foliensatzGiessen r user group treffen 10 05-2011 - foliensatz
Giessen r user group treffen 10 05-2011 - foliensatz
 
Analytics für Einsteiger
Analytics für EinsteigerAnalytics für Einsteiger
Analytics für Einsteiger
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data Konnektivität
 
Big data trend oder hype slideshare
Big data   trend oder hype slideshareBig data   trend oder hype slideshare
Big data trend oder hype slideshare
 
Sabine Bühn, Bernd Aschauer (Aschauer IT & Business)
Sabine Bühn, Bernd Aschauer (Aschauer IT & Business)Sabine Bühn, Bernd Aschauer (Aschauer IT & Business)
Sabine Bühn, Bernd Aschauer (Aschauer IT & Business)
 
Modernes Rechenzentrum
Modernes Rechenzentrum Modernes Rechenzentrum
Modernes Rechenzentrum
 
worldiety GmbH - Datenanalyse
worldiety GmbH - Datenanalyse worldiety GmbH - Datenanalyse
worldiety GmbH - Datenanalyse
 
Data Quadrant - Daten Management Methode
Data Quadrant - Daten Management MethodeData Quadrant - Daten Management Methode
Data Quadrant - Daten Management Methode
 
Dotnet Cologne 2015: //Rebuild - Big Data Analysis End-to-End
Dotnet Cologne 2015: //Rebuild - Big Data Analysis End-to-EndDotnet Cologne 2015: //Rebuild - Big Data Analysis End-to-End
Dotnet Cologne 2015: //Rebuild - Big Data Analysis End-to-End
 
Market Research Meets Business Intelligence
Market Research Meets Business IntelligenceMarket Research Meets Business Intelligence
Market Research Meets Business Intelligence
 
DBSAT – Die Oracle DATENBANK bzgl. PII Daten analysieren
DBSAT – Die Oracle DATENBANK bzgl. PII Daten analysierenDBSAT – Die Oracle DATENBANK bzgl. PII Daten analysieren
DBSAT – Die Oracle DATENBANK bzgl. PII Daten analysieren
 
Sendung 17-12 Special: DSGVO, Security & Compliance
Sendung 17-12 Special: DSGVO, Security & ComplianceSendung 17-12 Special: DSGVO, Security & Compliance
Sendung 17-12 Special: DSGVO, Security & Compliance
 

Big Data Bullshit Bingo

  • 1. Big Data – Ein technischer Überblick Copyright ©: 2015 OnPage.org GmbH Twitter: @danny_munich Facebook: https://www.facebook.com/danny.linden2
  • 2. Aus Gelsenkirchen 2011 nach München 2013 zu OnPage.org Interessen: Webcrawling, Suchmaschinen(weniger SEO), skalierbare Big Data Systeme Über mich Twitter: @danny_munich Facebook: https://www.facebook.com/danny.linden2 E-mail: danny@onpage.org
  • 3. Was bedeutet Big Data? Wikipedia: „Big Data [...] bezeichnet Datenmengen, die zu groß oder zu komplex sind oder sich zu schnell ändern, um sie mit händischen und klassischen Methoden der Datenverarbeitung auszuwerten. “ - Große Datenmengen speichern/verarbeiten: Terrabyte - Schnelle Antwortzeiten - Flexible Skalierung - Fault tolerance - Vorausplanen der benötigten Ressourcen
  • 4. Anwendungsgebiete Empfehlungssysteme - Clustering, - Recommandation Analysen/Diagnosen - Analytics - Fraud-Protection Prozessoptimierung - Fertigung - Lagerhaltung Forschung - Klima - Krankheiten
  • 5. Big Data Frameworks Hadoop – Der VW Golf
  • 6. Hadoop - 2008 gestartet - Basiert auf dem Map-Reduce Algorithmus von Google - Besteht ursprünglich aus MapReduce und HDFS - Diverse Erweiterungen / Layer oberhalb von Map-Reduce
  • 7. HDFS - Hadoop Distributed File System - Global verteilbar - Robust auf Java - Ausfallsicher / HA möglich - Skalierbar - Auf low-cost Hardware - High-level APIs (REST)
  • 8. Map-Reduce - Hadoop Distributed File System 1. Input 2. Map-Phase 3. Shuffle-Phase 4. Reduce Phase 5. Output
  • 9. Nice Data Format HDFS + Map-Reduce: Datenlokalität statt Netzwerklast
  • 10. Open-Source Erweiterungen für Hadoop Apache PIG Apache HBase Apache Hive Apache Oozie HUE Apache Sqoop Apache Nutch Apache Solr Apache mahout
  • 11. Real-Life Use-Cases für Hadoop - Logfile-Analyse - Webcrawling / eigene Suchmaschine (Apache Solr & Apache Nutch) - Analyse großer Historischer Datenmengen (Produktdaten) - Textanalyse (TF-IDF usw...) - Machine-Learning - Recommandation - Clustering - ...
  • 12. Datenquellen zum spielen: - Wikipedia Dumps: https://dumps.wikimedia.org - Google Ngrams: http://bit.ly/1gfTzNG - Über 1.000 TB gecrawltes Web: http://commoncrawl.org - AWS Public Datasets: http://aws.amazon.com/datasets - 2,9 Mrd Entitäten: http://www.freebase.com - ...
  • 13. VMware / VirtualBox: - MapR: https://www.mapr.com/products/mapr-sandbox-hadoop - Cloudera: http://www.cloudera.com/content/cloudera/en/downloads/quickstart_vms/cdh-5-4-x.html - Hortonworks: https://hortonworks.com/products/hortonworks-sandbox/ Distributionen zum testen:
  • 14. Datenbanken: Von SQL zu NoSQL zu NewSQL
  • 15. Relationale Datenbanken - Wird mittels SQL Abgefragt - ACID - Normalisierung
  • 16. Nachteile von Relationalen Datenbanken: Maximal 2 von 3 Eigenschaften möglich RDMS nicht zur Skalierung geeignet?
  • 17. NoSQL Datenbanken - Key-Value - Column-Based - Document - Graph
  • 18. Key-Value Datenbanken - Einfach Aufgebaut: GET/PUT/DELETE - Verwenden von Zusammengesetzten Keys: - DB-Systeme: Redis, Riak, Cassandra, DynamoDB
  • 19. Key-Value Datenbanken Beispiel 1: - GET <Eventid> - GET besucher = 100.000 - GET <Eventid><Datum> - GET besucher:28-04-2015 = 1.000 - GET <Eventid><Datum><Stunde> - GET besucher:28-04-2015-18-00 = 50 Beispiel 2: - GET <Person><Datenfeld> - GET P1:Vorname = Max - GET P1:Nachname = Mustermann - GET P1:Tel = [0151-1234567, 0201-987654]
  • 20. Column-Based Datenbanken 1,Schmidt,Josef,40000;2,Müller,Maria,50000;3,Meier,Julia,44000; Klassisch Zeilenorientierte Speicherung: 1,2,3;Schmidt,Müller,Meier;Josef,Maria,Julia;40000,50000,44000; Spaltenorientierte Speicherung: SELECT * FROM tabelle WHERE Personalnr = 1; SELECT SUM(Gehalt) FROM tabelle;
  • 21. Column-Based Datenbanken Bekannte Systeme: - Hbase (Basiert auf Google BigTable, u.a bei Facebook) - Cassandra (Ursprünglich Facebook, Digg, Twitter, Reddit) - SimpleDB (Amazon AWS)
  • 22. Document Datenbanken Beispiel-Dokument, JSON: db.users.find( { status: "A", age: 55 } ) Beispiel-Dokument:
  • 23. Graph Datenbanken Als Graph abbilden: - Social-Networks - Verlinkungen - uvm ... Typische Abfragen: Person X kennt Person Y über Person Z
  • 24. - Kombiniert SQL mit NoSQL - ACID trotz Skalierbarkeit NewSQL - Google F1 basierend auf Google Spanner - CockroachDB - https://github.com/cockroachdb/cockroach - Clustrix - VoltDB - MemSQL - Pivotal's SQLFire - SAP HANA - FoundationDB - NuoDB
  • 25. More NoSQL Stuff - Elasticsearch - Auch als Datenbank nutzbar! - https://crate.io
  • 26. Die Cloud: Big Data – Jetzt – Sofort - Alles
  • 27. Cloud Service Provider Die drei großen: - Amazon AWS - Google Cloud - Microsoft Azure Vorteile: - Schnell beliebige Kapazität buchen - Minuten/Stundenbasierte Abrechung - Lineare skalierung - Keine Upfront kosten
  • 30. Amazon AWS Spot-Instances Durch falsche (copy&paste) Konfiguration werden 2.150$ / Monat / Server aus dem Fenster geworfen
  • 33. Prediction.io - Ready 2 use Machine-Learning System - Basiert auf Spark (In-Memory Hadoop) - Im AWS Marketplace verfügbar - https://docs.prediction.io/install/launch-aws/ u.a: - Recommendation - Complementary Purchase - Clustering - Lead Scoring - … Fertige Module ua. für: - Magento - Wordpress - ... uvm auf Github
  • 34. Prediction.io <?php use predictionioEventClient; $accessKey = 'IiVHNFnyNvWXqMqXxcIbQDqFRz5K0fe9e3QfqjKwvW3O'; $client = new EventClient($accessKey, 'http://localhost:7070'); $response = $client->setUser(5); $response = $client->setItem('bookId1', array('itypes' => 1)); $client->recordUserActionOnItem('view', 5, 'bookId1'); $engineClient = new EngineClient('http://localhost:8000'); $response = $engineClient->sendQuery(array('uid'=>7, 'iids'=>array(1,2,3,4,5))); print_r($rec);
  • 35. Das wars! Customer: Twitter: @danny_munich Facebook: https://www.facebook.com/danny.linden2 E-mail: danny@onpage.org Achja: Wir suchen gute Entwickler: https://de.onpage.org/about/jobs/

Hinweis der Redaktion

  1. Start
  2. Screenshot austauschen + shclecht lesbar
  3. Screenshot austauschen + shclecht lesbar
  4. Screenshot austauschen + shclecht lesbar
  5. Atomicity, Consistency, Isolation und Durability
  6. Atomicity, Consistency, Isolation und Durability
  7. Atomicity, Consistency, Isolation und Durability
  8. Atomicity, Consistency, Isolation und Durability
  9. Atomicity, Consistency, Isolation und Durability
  10. Eine Spaltenorientierte Datenbank ist ein Datenbankmanagementsystem, das seine Inhalte spaltenweise statt zeilenweise abspeichert. Das hat Vorteile bei Anwendungen wie ein Data-Warehouse, wo Aggregate über große Zahlen ähnlicher Elemente gebildet werden.
  11. Eine Spaltenorientierte Datenbank ist ein Datenbankmanagementsystem, das seine Inhalte spaltenweise statt zeilenweise abspeichert. Das hat Vorteile bei Anwendungen wie ein Data-Warehouse, wo Aggregate über große Zahlen ähnlicher Elemente gebildet werden.
  12. Eine Spaltenorientierte Datenbank ist ein Datenbankmanagementsystem, das seine Inhalte spaltenweise statt zeilenweise abspeichert. Das hat Vorteile bei Anwendungen wie ein Data-Warehouse, wo Aggregate über große Zahlen ähnlicher Elemente gebildet werden.
  13. Eine Spaltenorientierte Datenbank ist ein Datenbankmanagementsystem, das seine Inhalte spaltenweise statt zeilenweise abspeichert. Das hat Vorteile bei Anwendungen wie ein Data-Warehouse, wo Aggregate über große Zahlen ähnlicher Elemente gebildet werden.
  14. Volt db ehemals postgres
  15. Volt db ehemals postgres
  16. Screenshot austauschen + shclecht lesbar
  17. Volt db ehemals postgres
  18. Volt db ehemals postgres
  19. Volt db ehemals postgres
  20. Volt db ehemals postgres
  21. Volt db ehemals postgres
  22. Screenshot austauschen + shclecht lesbar
  23. Volt db ehemals postgres
  24. Volt db ehemals postgres