Aus Gelsenkirchen
2011 nach München
2013 zu OnPage.org
Interessen: Webcrawling, Suchmaschinen(weniger SEO),
skalierbare Big Data Systeme
Über mich
Twitter: @danny_munich
Facebook: https://www.facebook.com/danny.linden2
E-mail: danny@onpage.org
Was bedeutet Big Data?
Wikipedia: „Big Data [...] bezeichnet Datenmengen, die zu groß oder zu komplex sind oder sich zu schnell
ändern, um sie mit händischen und klassischen Methoden der Datenverarbeitung auszuwerten. “
- Große Datenmengen speichern/verarbeiten: Terrabyte
- Schnelle Antwortzeiten
- Flexible Skalierung
- Fault tolerance
- Vorausplanen der benötigten Ressourcen
Hadoop
- 2008 gestartet
- Basiert auf dem Map-Reduce Algorithmus von Google
- Besteht ursprünglich aus MapReduce und HDFS
- Diverse Erweiterungen / Layer oberhalb von Map-Reduce
HDFS - Hadoop Distributed File System
- Global verteilbar
- Robust auf Java
- Ausfallsicher / HA möglich
- Skalierbar
- Auf low-cost Hardware
- High-level APIs (REST)
Key-Value Datenbanken
Beispiel 1:
- GET <Eventid>
- GET besucher = 100.000
- GET <Eventid><Datum>
- GET besucher:28-04-2015 = 1.000
- GET <Eventid><Datum><Stunde>
- GET besucher:28-04-2015-18-00 = 50
Beispiel 2:
- GET <Person><Datenfeld>
- GET P1:Vorname = Max
- GET P1:Nachname = Mustermann
- GET P1:Tel = [0151-1234567, 0201-987654]
Eine Spaltenorientierte Datenbank ist ein Datenbankmanagementsystem, das seine Inhalte spaltenweise statt zeilenweise abspeichert. Das hat Vorteile bei Anwendungen wie ein Data-Warehouse, wo Aggregate über große Zahlen ähnlicher Elemente gebildet werden.
Eine Spaltenorientierte Datenbank ist ein Datenbankmanagementsystem, das seine Inhalte spaltenweise statt zeilenweise abspeichert. Das hat Vorteile bei Anwendungen wie ein Data-Warehouse, wo Aggregate über große Zahlen ähnlicher Elemente gebildet werden.
Eine Spaltenorientierte Datenbank ist ein Datenbankmanagementsystem, das seine Inhalte spaltenweise statt zeilenweise abspeichert. Das hat Vorteile bei Anwendungen wie ein Data-Warehouse, wo Aggregate über große Zahlen ähnlicher Elemente gebildet werden.
Eine Spaltenorientierte Datenbank ist ein Datenbankmanagementsystem, das seine Inhalte spaltenweise statt zeilenweise abspeichert. Das hat Vorteile bei Anwendungen wie ein Data-Warehouse, wo Aggregate über große Zahlen ähnlicher Elemente gebildet werden.