“Elasticsearch und Big Data”
Bernhard Pflugfelder
inovex GmbH
23.07.2014
2
‣ Big Data Engineer @ inovex
‣ Erfahren in den Bereichen:
‣ search
‣ analytics
‣ big data
‣ bi
‣ Arbeite u.a. mit:
‣ Lucene
‣ Solr
‣ Elasticsearch
‣ Hadoop Ecosystem
‣ bpflugfelder@inovex.de
Bernhard Pflugfelder
‣ Demo “media analytics” @ ProsiebenSat.1
‣ “Elasticsearch in a nutshell”
‣ Import von Daten in Elasticsearch
‣ Datananalyse mit Elasticsearch
Agenda
4
“media analytics” @ ProsiebenSat.1
5
Analyse von Big Data
mit Elasticsearch
6
Elasticsearch in a nutshell
Lucene
“unter der
Haube”
skalierbar
dokumenten
orientiert
Plugin
Architektur
Multi tenancy
REST &
JSON
7
Überblick Architektur
Hochverfügbarkeit + Fehlertoleranz
Primary Shard Replica Shard
1 2 3
Master node
321
Node
21 3
Node
JSON
Input
JSON
Output
8
real-time get
Datentypen
Mapping
(Schema)
Queries
insert,
update,
delete
snapshot &
backup
Elasticsearch – eine dokumentenorientierte Datenbank
9
Import von Daten in Elasticsearch…
10
Import von Daten in Elasticsearch
flume
index api http bindings
logstash
spring-data-
elasticsearch
hadoop-
elasticsearch
11logstash
logstash
log collection and management tool
collects, parses and stores log events
became part of the ELK stack
seamless integration with elasticsearch
plugin architecture
expect that logstash will be promoted to a more general ingestion pipeline
Plugin
Architektur
Verarbeitung
v. Logdaten
Integration
mit ES
inputs,
codecs,
filters,
outputs
12
getting data into elasticsearch
elasticsearch & hadoop
from http://www.elasticsearch.org/blog/elasticsearch-and-hadoop/
MapReduce Hive Pig Spark
13
Datananalyse mit Elasticsearch …
14
Datananalyse mit Elasticsearch
Sie kennen Facetten?
15
Datananalyse mit Elasticsearch
Visualisierung von Facetten für explorative Analyse
16
Datananalyse mit Elasticsearch
Das Aggregations Framework (aggs)
‣ explorative Analyse
‣ slicing & dicing
‣ drilldown
‣ interaktiv
‣ schnelle Berechnung durch in-
memory Datenstruktur field data
‣ über search api ausführbar
‣ json in / json out
Bucket aggs
Für das Aufteilen der originalen Menge
an Dokumenten in separate
Teilmengen von Dokumenten
(buckets).
Metric aggs
Für die Berechnung von spezifischen
Metriken über eine Menge von
Dokumenten.
Die Berechnung basiert auf einer
Aggregation über alle Dokumente pro
“bucket”.
17
Das Aggregations Framework (aggs)
2 Aggregationstypen
‣ terms
‣ range
‣ date range
‣ histogram
‣ date histogram
‣ geo distance
‣ geohash grid
‣ ...
‣ min
‣ max
‣ sum
‣ avg
‣ value count
‣ percentiles
‣ cardinality
‣ ...
18
Das Aggregations Framework (aggs)
Viele Aggregators adhoc verfügbar
my_aggregation:
19
Das Aggregations Framework (aggs)
spezifische Analysen durch “nested aggregators” realisierbar
"aggregations": {
"<aggregation_name>": {
"<aggregation_type>": {
<aggregation_body>
},
["aggregations": { [<sub_aggregation>]* }]
}
[,"<aggregation_name_2>": { … }]*
}
bucket 1 bucket 2 bucket n metrics…
20
‣ Elasticsearch für Datenanalyse:
‣ Aggregations Framework
‣ Analyse auch von Streamdaten
‣ ELK stack (ingestion + analysis + visualization)
‣ Plus: gemeinsame Analyse von strukturieren & unstrukturierten Daten
‣ Elasticsearch für Big Data
‣ skalierbarer & hochverfügbarer Document Store für Suche / Analyse
‣ Hadoop-Integration (CDH5, Hortenworks HDP, MapR)
‣ Import von großen Datenmengen über logstash oder flume
Zusammenfassung
21
Vielen Dank für Ihre Aufmerksamkeit!
Kontakt
inovex GmbH
Bernhard Pflugfelder
Big Data Engineer
Cell: +49 173 3181-088
Mail: bernhard.pflugfelder@inovex.de
inovex GmbH
Ludwig-Erhard-Allee 6
76131 Karlsruhe
Tel.: +49 721 619 021-0
info@inovex.de
www.inovex.de

Elasticsearch und Big Data - Webinar vom 23.07.2014

  • 1.
    “Elasticsearch und BigData” Bernhard Pflugfelder inovex GmbH 23.07.2014
  • 2.
    2 ‣ Big DataEngineer @ inovex ‣ Erfahren in den Bereichen: ‣ search ‣ analytics ‣ big data ‣ bi ‣ Arbeite u.a. mit: ‣ Lucene ‣ Solr ‣ Elasticsearch ‣ Hadoop Ecosystem ‣ bpflugfelder@inovex.de Bernhard Pflugfelder
  • 3.
    ‣ Demo “mediaanalytics” @ ProsiebenSat.1 ‣ “Elasticsearch in a nutshell” ‣ Import von Daten in Elasticsearch ‣ Datananalyse mit Elasticsearch Agenda
  • 4.
  • 5.
    5 Analyse von BigData mit Elasticsearch
  • 6.
    6 Elasticsearch in anutshell Lucene “unter der Haube” skalierbar dokumenten orientiert Plugin Architektur Multi tenancy REST & JSON
  • 7.
    7 Überblick Architektur Hochverfügbarkeit +Fehlertoleranz Primary Shard Replica Shard 1 2 3 Master node 321 Node 21 3 Node JSON Input JSON Output
  • 8.
  • 9.
    9 Import von Datenin Elasticsearch…
  • 10.
    10 Import von Datenin Elasticsearch flume index api http bindings logstash spring-data- elasticsearch hadoop- elasticsearch
  • 11.
    11logstash logstash log collection andmanagement tool collects, parses and stores log events became part of the ELK stack seamless integration with elasticsearch plugin architecture expect that logstash will be promoted to a more general ingestion pipeline Plugin Architektur Verarbeitung v. Logdaten Integration mit ES inputs, codecs, filters, outputs
  • 12.
    12 getting data intoelasticsearch elasticsearch & hadoop from http://www.elasticsearch.org/blog/elasticsearch-and-hadoop/ MapReduce Hive Pig Spark
  • 13.
  • 14.
  • 15.
    15 Datananalyse mit Elasticsearch Visualisierungvon Facetten für explorative Analyse
  • 16.
    16 Datananalyse mit Elasticsearch DasAggregations Framework (aggs) ‣ explorative Analyse ‣ slicing & dicing ‣ drilldown ‣ interaktiv ‣ schnelle Berechnung durch in- memory Datenstruktur field data ‣ über search api ausführbar ‣ json in / json out
  • 17.
    Bucket aggs Für dasAufteilen der originalen Menge an Dokumenten in separate Teilmengen von Dokumenten (buckets). Metric aggs Für die Berechnung von spezifischen Metriken über eine Menge von Dokumenten. Die Berechnung basiert auf einer Aggregation über alle Dokumente pro “bucket”. 17 Das Aggregations Framework (aggs) 2 Aggregationstypen
  • 18.
    ‣ terms ‣ range ‣date range ‣ histogram ‣ date histogram ‣ geo distance ‣ geohash grid ‣ ... ‣ min ‣ max ‣ sum ‣ avg ‣ value count ‣ percentiles ‣ cardinality ‣ ... 18 Das Aggregations Framework (aggs) Viele Aggregators adhoc verfügbar
  • 19.
    my_aggregation: 19 Das Aggregations Framework(aggs) spezifische Analysen durch “nested aggregators” realisierbar "aggregations": { "<aggregation_name>": { "<aggregation_type>": { <aggregation_body> }, ["aggregations": { [<sub_aggregation>]* }] } [,"<aggregation_name_2>": { … }]* } bucket 1 bucket 2 bucket n metrics…
  • 20.
    20 ‣ Elasticsearch fürDatenanalyse: ‣ Aggregations Framework ‣ Analyse auch von Streamdaten ‣ ELK stack (ingestion + analysis + visualization) ‣ Plus: gemeinsame Analyse von strukturieren & unstrukturierten Daten ‣ Elasticsearch für Big Data ‣ skalierbarer & hochverfügbarer Document Store für Suche / Analyse ‣ Hadoop-Integration (CDH5, Hortenworks HDP, MapR) ‣ Import von großen Datenmengen über logstash oder flume Zusammenfassung
  • 21.
    21 Vielen Dank fürIhre Aufmerksamkeit! Kontakt inovex GmbH Bernhard Pflugfelder Big Data Engineer Cell: +49 173 3181-088 Mail: bernhard.pflugfelder@inovex.de inovex GmbH Ludwig-Erhard-Allee 6 76131 Karlsruhe Tel.: +49 721 619 021-0 info@inovex.de www.inovex.de