Big Data Bullshit Bingo

Big Data – Ein technischer Überblick
Copyright ©: 2015 OnPage.org GmbH
Twitter: @danny_munich
Facebook: https://www.facebook.com/danny.linden2

Aus Gelsenkirchen
2011 nach München
2013 zu OnPage.org
Interessen: Webcrawling, Suchmaschinen(weniger SEO),
skalierbare Big Data Systeme
Über mich
E-mail: danny@onpage.org

Was bedeutet Big Data?
Wikipedia: „Big Data [...] bezeichnet Datenmengen, die zu groß oder zu komplex sind oder sich zu schnell
ändern, um sie mit händischen und klassischen Methoden der Datenverarbeitung auszuwerten. “
- Große Datenmengen speichern/verarbeiten: Terrabyte
- Schnelle Antwortzeiten
- Flexible Skalierung
- Fault tolerance
- Vorausplanen der benötigten Ressourcen

Anwendungsgebiete
Empfehlungssysteme
- Clustering,
- Recommandation
Analysen/Diagnosen
- Analytics
- Fraud-Protection
Prozessoptimierung
- Fertigung
- Lagerhaltung
Forschung
- Klima
- Krankheiten

Big Data Frameworks
Hadoop – Der VW Golf

Hadoop
- 2008 gestartet
- Basiert auf dem Map-Reduce Algorithmus von Google
- Besteht ursprünglich aus MapReduce und HDFS
- Diverse Erweiterungen / Layer oberhalb von Map-Reduce

HDFS - Hadoop Distributed File System
- Global verteilbar
- Robust auf Java
- Ausfallsicher / HA möglich
- Skalierbar
- Auf low-cost Hardware
- High-level APIs (REST)

Map-Reduce - Hadoop Distributed File System
1. Input
2. Map-Phase
3. Shuffle-Phase
4. Reduce Phase
5. Output

Nice Data Format
HDFS + Map-Reduce: Datenlokalität statt Netzwerklast

Open-Source Erweiterungen für Hadoop
Apache PIG
Apache HBase
Apache Hive
Apache Oozie
HUE
Apache Sqoop
Apache Nutch
Apache Solr
Apache mahout

Real-Life Use-Cases für Hadoop
- Logfile-Analyse
- Webcrawling / eigene Suchmaschine (Apache Solr & Apache Nutch)
- Analyse großer Historischer Datenmengen (Produktdaten)
- Textanalyse (TF-IDF usw...)
- Machine-Learning
- Recommandation
- Clustering
- ...

Datenquellen zum spielen:
- Wikipedia Dumps: https://dumps.wikimedia.org
- Google Ngrams: http://bit.ly/1gfTzNG
- Über 1.000 TB gecrawltes Web: http://commoncrawl.org
- AWS Public Datasets: http://aws.amazon.com/datasets
- 2,9 Mrd Entitäten: http://www.freebase.com
- ...

VMware / VirtualBox:
- MapR: https://www.mapr.com/products/mapr-sandbox-hadoop
- Cloudera: http://www.cloudera.com/content/cloudera/en/downloads/quickstart_vms/cdh-5-4-x.html
- Hortonworks: https://hortonworks.com/products/hortonworks-sandbox/
Distributionen zum testen:

Datenbanken:
Von SQL zu NoSQL zu NewSQL

Relationale Datenbanken
- Wird mittels SQL Abgefragt
- ACID
- Normalisierung

Nachteile von Relationalen Datenbanken:
Maximal 2 von 3
Eigenschaften möglich
RDMS nicht zur
Skalierung geeignet?

NoSQL Datenbanken
- Key-Value
- Column-Based
- Document
- Graph

Key-Value Datenbanken
- Einfach Aufgebaut: GET/PUT/DELETE
- Verwenden von Zusammengesetzten Keys:
- DB-Systeme: Redis, Riak, Cassandra, DynamoDB

Key-Value Datenbanken
Beispiel 1:
- GET <Eventid>
- GET besucher = 100.000
- GET <Eventid><Datum>
- GET besucher:28-04-2015 = 1.000
- GET <Eventid><Datum><Stunde>
- GET besucher:28-04-2015-18-00 = 50
Beispiel 2:
- GET <Person><Datenfeld>
- GET P1:Vorname = Max
- GET P1:Nachname = Mustermann
- GET P1:Tel = [0151-1234567, 0201-987654]

Column-Based Datenbanken
1,Schmidt,Josef,40000;2,Müller,Maria,50000;3,Meier,Julia,44000;
Klassisch Zeilenorientierte Speicherung:
1,2,3;Schmidt,Müller,Meier;Josef,Maria,Julia;40000,50000,44000;
Spaltenorientierte Speicherung:
SELECT * FROM tabelle WHERE Personalnr = 1;
SELECT SUM(Gehalt) FROM tabelle;

Column-Based Datenbanken
Bekannte Systeme:
- Hbase (Basiert auf Google BigTable, u.a bei Facebook)
- Cassandra (Ursprünglich Facebook, Digg, Twitter, Reddit)
- SimpleDB (Amazon AWS)

Document Datenbanken
Beispiel-Dokument, JSON:
db.users.find(
{ status: "A",
age: 55
} )
Beispiel-Dokument:

Graph Datenbanken
Als Graph abbilden:
- Social-Networks
- Verlinkungen
- uvm ...
Typische Abfragen:
Person X kennt Person
Y über Person Z

- Kombiniert SQL mit NoSQL
- ACID trotz Skalierbarkeit
NewSQL
- Google F1 basierend auf Google Spanner
- CockroachDB
- https://github.com/cockroachdb/cockroach
- Clustrix
- VoltDB
- MemSQL
- Pivotal's SQLFire
- SAP HANA
- FoundationDB
- NuoDB

More NoSQL Stuff
- Elasticsearch
- Auch als Datenbank nutzbar!
- https://crate.io

Die Cloud:
Big Data – Jetzt – Sofort - Alles

Cloud Service Provider
Die drei großen:
- Amazon AWS
- Google Cloud
- Microsoft Azure
Vorteile:
- Schnell beliebige Kapazität buchen
- Minuten/Stundenbasierte Abrechung
- Lineare skalierung
- Keine Upfront kosten

Amazon AWS Spot-Instances
Durch falsche (copy&paste)
Konfiguration
werden 2.150$ / Monat / Server
aus dem Fenster geworfen

Prediction.io
- Ready 2 use Machine-Learning System
- Basiert auf Spark (In-Memory Hadoop)
- Im AWS Marketplace verfügbar
- https://docs.prediction.io/install/launch-aws/
u.a:
- Recommendation
- Complementary Purchase
- Clustering
- Lead Scoring
- …
Fertige Module ua. für:
- Magento
- Wordpress
- ... uvm auf Github

Prediction.io
<?php
use predictionioEventClient;
$accessKey = 'IiVHNFnyNvWXqMqXxcIbQDqFRz5K0fe9e3QfqjKwvW3O';
$client = new EventClient($accessKey, 'http://localhost:7070');
$response = $client->setUser(5);
$response = $client->setItem('bookId1', array('itypes' => 1));
$client->recordUserActionOnItem('view', 5, 'bookId1');
$engineClient = new EngineClient('http://localhost:8000');
$response = $engineClient->sendQuery(array('uid'=>7, 'iids'=>array(1,2,3,4,5)));
print_r($rec);

Das wars!
Customer:
E-mail: danny@onpage.org
Achja: Wir suchen gute Entwickler:
https://de.onpage.org/about/jobs/

Big Data Bullshit Bingo

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (17)

Ähnlich wie Big Data Bullshit Bingo

Ähnlich wie Big Data Bullshit Bingo (20)

Big Data Bullshit Bingo

Hinweis der Redaktion