SlideShare ist ein Scribd-Unternehmen logo
1 von 27
Downloaden Sie, um offline zu lesen
Analyse von Applikationslogs und Querylogs:
Datenbanken, Hadoop oder Splunk?
Dr. Kurt Stockinger
Dozent für Informatik
Zürcher Hochschule für Angewandte Wissenschaften
DW 2013, 12. November 2013, Zürich
Inhalt
•  Überblick über ZHAW und Data Science Lab
•  Use Cases für Analyse von Applikations- und Query-Logs
•  Technologien:
•  Datenbanken
•  Hadoop
•  Splunk

•  Implementierung der Use Cases mit den 3 Technologien

2
CV Kurt Stockinger
•  Dozent an der ZHAW seit 1. August 2013
•  2007-2013:
Data Warehouse & Business Intelligence Architect bei Credit Suisse, Zürich
& Forschungsprojekte mit ETH Zürich

•  2004-2007:
Forschungstätigkeit am Lawrence Berkeley National Laboratory, Berkeley,
Kalifornien (Scientific Data Management)

•  2002-2003:
Forschungstätigkeit am CERN (Grid Computing, Datenbanken)

•  1999-2001:
Doktorat in Informatik am CERN (Zugriffsoptimierung für objektorientierte
Datenbanken)
Gastforscher am California Institute of Technology, Pasadena, Kalifornien
3
Zürcher Hochschule für
Angewandte Wissenschaften (ZHAW)
•  Geht zurück auf Technikum in Winterthur
•  Gegründet 1874
•  Seit 2007 existiert Name ZHAW:
•  Zusammenschluss mehrerer Hochschulen im Kanton Zürich
•  Zurzeit mehr als 10‘000 Studierende
•  Standorte in Zürich, Winterthur und Wädenswil

•  Prominentester Dozent:
•  1901: Albert Einstein

4
Datalab = Data Science @ ZHAW

•  Eines der ersten Data Science Labs in Europa (wenn nicht sogar das
erste)
•  Zusammenschluss von Informatikern, Statistikern, Mathematikern und
Physikern zur Lösung von Data Science Problemen in Forschung und
Lehre:
•  Institut für Angewandte Informationstechnologie
•  www.init.zhaw.ch

•  Institut für Datenanalyse und Prozessdesign
•  www.idp.zhaw.ch
5
Data Scientist

T. Stadelmann, K. Stockinger, M. Braschler, M. Cieliebak, G. Baudinot, O. Dürr, A. Ruckstuhl,
Applied Data Science in Europe. In: European Computer Science Summit. ECSS 2013. Amsterdam, The Netherlands: IEEE.
http://pd.zhaw.ch/publikation/upload/204718.pdf
6
7
Inhalt
•  Überblick über ZHAW und Data Science Lab
•  Use Cases für Analyse von Applikations- und Query-Logs
•  Technologien:
•  Datenbanken
•  Hadoop
•  Splunk

•  Implementierung der Use Cases mit den 3 Technologien

8
Use Cases
•  Web Log Analyse
•  Applikations Log Analyse
•  DWH Query Log Analyse

9
Web Log Analyse
•  Gegeben:
• 

Log Files von Webserver für eCommerce:
•  z.B. Online Shop, eBanking, Produktdokumentation & Hilfe

•  Gesucht:
• 
• 
• 
• 

Welche Artikel werden gesucht?
Wie verändert sich das Suchverhalten über die Zeit?
Von welchen Lokationen greifen die Benutzer darauf zu?
Welche Seiten wurden nie angesehen?

10
Beispiel: Web Log
Standardisierte Logs::
91.57.78.223 - - [09/Sep/2013:00:00:06 +0200] "GET /assets/static/
dojo-0.4.3-custom-4.1.5/nls/dojo_de.js HTTP/1.1" 200 884 "http://
www.superapp.info/product/DataScienceKit" "Mozilla/5.0 (X11; Linux
i686) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/
28.0.1500.71 Chrome/28.0.1500.71 Safari/537.36"

11
Applikations Log Analyse
•  Gegeben:
•  Logfiles von unterschiedlichen Applikationen der eigenen Firma
•  Jedes Logfile hat anderes Format
•  Jede Applikation hat andere Funktionen, die für Auswertung relevant sind

•  Gesucht:
• 
• 
• 
• 

Wer sind die Hauptkunden?
Werden bestimmte Funktionen einer Applikation aufgerufen?
Was sind die häufigsten Fehlermeldungen über welchen zeitlichen Verlauf?
Sieht man Korrelationen zwischen einzelnen Ereignissen?

12
Beispiel: Applikationslog
Logs von unterschiedlichster Struktur::
2013/10/11 – getUser(„Schrödinger“) – Visting time: 32 sec
2013-Oct-14,14:30 Error – User „xyz“ not allowed to execute task
2013-27-10 eCommerce: Buy artile: „Schrödinger‘s Cat Trilogy,
Robert Anthon Wilson, 1979“

13
DWH Query Log Analyse
•  Gegeben:
•  DWH Query Logs (ausgeführte SQL Statements)

•  Gesucht:
• 
• 
• 
• 
• 

Wer hat welche Queries ausgeführt?
Über welchen Zeitraum?
Gibt es Korrelationen zwischen den Benutzern?
Welche Tabellen wurden am häufigsten abgefragt?
Gibt es Zugriffsverletzungen oder sind bestimmte Zugriffsrechte falsch
vergeben?

14
Beispiel: DWH Query Log im XML Format

<xml>
<audit>
<username> john_smith </username>
<timestamp> 21/12/2012 23:59:59 </timestamp>
<sql_query>
SELECT *
FROM sales S, customers C
WHERE S.customer_ID = C.id AND
C.hair_color = black
</sql_query>
…
</audit>
</xml>

15
Inhalt
•  Überblick über ZHAW und Data Science Lab
•  Use Cases für Analyse von Applikations- und Query-Logs
•  Technologien:
•  Datenbanken
•  Hadoop
•  Splunk

•  Implementierung der Use Cases mit den 3 Technologien

16
Data Warehouse basierend auf relationale
Datenbanktechnologie

§  Relationale Datenbanken
§ 
§ 
§ 

seit den 70er
ETL (extract, transform,
load) = Kitt zwischen
DWH-Schichten
Sehr effizient für
Prozessierung von
struktierten und
normalisierten Daten
Parallele Datenbank für
High Performance

17
Hadoop Überblick
“A scalable, fault-tolerant, distributed storage
and computation platform”
App

Node 1

Hadoop

Map

Node N

Reduce

Map

Reduce

HDFS
18
Pig Überblick
Pig Latin ist eine SQL-ähnliche Sprache
Jedes Statement wird on-the-fly in MapReduce kompiliert
Pig Statements werden auf Hadoop ausgeführt
PIG
Script

Runtime
compiler
Map

Final results
stored in
HDFS

Map

MapReduce
Code

Map

Shuffle & Sort

Hadoop cluster
Reduce

Reduce

19
Splunk Überblick
Kommerzielles, closed-source Produkt zur Indizierung und Suche von
Log-Daten
Intuitives Interface und Suchsprache (entspricht Goolge-Suche +
Erweiterungen)
Indizes sind verteilt, jedoch keine Replication von Daten und Index

20
Kombination von Hadoop und Splunk

21
Inhalt
•  Überblick über ZHAW und Data Science Lab
•  Use Cases für Analyse von Applikations- und Query-Logs
•  Technologien:
•  Datenbanken
•  Hadoop
•  Splunk

•  Implementierung der Use Cases mit den 3 Technologien

22
Datenbanken
•  Grundsätzlich sind Datenbanken für Analyse von strukturieren Daten
konzipiert
•  Log Files sind jedoch semi-strukturiert oder unstrukturiert
•  Extrahierungsschritt muss ausserhalb der Datenbank erfolgen
(Textextrahierung)
•  Danach können Ergebnisse strukturiert in Datenbank abgelegt werden
•  Visualisierung und Analyse erfolgt typischer Weise via Business
Intelligence Tools
•  Pro:
•  Etablierte Tools vorhanden
•  Gute Unterstützung von Zugriffsverwaltung

•  Con:
•  Drei unterschiedliche Tools notwendig
•  Eigentlich haben wir hier kein Datenbankproblem

23
Hadoop
•  Log Files können direkt mit Hadoop prozessiert werden:
•  Low-level API: MapReduce + Java
•  High-level Progammiersprache: Pig Latin

•  Analyse und Auswertung erfolgt ebenfalls in Hadoop
•  Visualisierung der Ergebnisse mit anderem Tool
•  Pro:
•  End-to-end-processing in einem skalierbaren Tool
•  Open-source Software

•  Con:
•  Zugriffsverwaltung noch nicht ausgereift
•  Visualisierung durch externes Tool
•  Know-how noch nicht so stark verbreitet (Data Scientists werden benötigt)
24
Splunk
•  Log Files können direkt mit Splunk prozessiert werden:
•  Web Log Files werden direkt erkannt
•  Python API erlaubt Erweiterungen

•  Visualisierung erfolgt direkt mit Splunk
•  Zugriffsberechtigungen können über Dashboards gesteuert werden
•  Pro:
•  Integriertes System (End-to-end Auswertung + Visualisierung)
•  Zugriffsverwaltung
•  Kombination mit Hadoop möglich

•  Con:
•  Entwicklung von komplexen Dashboards nicht trivial
•  Gewisse Lernkurve für Aufsetzen der Infrastruktur und Einschulung der
Entwickler

25
Nächste Schritte
•  Analyse von Log Files ermöglicht breite Anwendungsmöglichkeiten
•  Recommender Systems:
•  Vorschlagen von ähnlichen Produkten
•  Anwendungen:
•  Marketing, etc.

•  Machine Learning:
•  Lernen von Benutzerverhalten und Zugriffsmuster
•  Erkennen von Produktaffinitäten von Benutzern
•  Anwendung:
•  Marketing, Fraud detection, Kundenbetreuung

26
Zusammenfassung
•  Analyse von Log Files ist kein Datenbankproblem und sollte nicht über
das DWH gemacht werden.
•  Kombination mit Hadoop erlaubt skalierbaren Ansatz.
•  Einsatz von Splunk hat sich in der Praxis gut bewährt.
•  Log Analyse ist typisches Problem für Data Scientists:
•  Weltweit eine rare Spezies

•  Aber:

• 
• 
• 
• 

Swiss Data Science Workshop im März 2014: Anmeldung ab Mitte Nov.
Wir arbeiten an einem Curriculum für Data Scientists.
DAS Data Science für Herbstsemester 2014 geplant.
Kontakt: Kurt.Stockinger@zhaw.ch

27

Weitere ähnliche Inhalte

Andere mochten auch

Splunk corporate overview German 2012
Splunk corporate overview German 2012Splunk corporate overview German 2012
Splunk corporate overview German 2012
jenny_splunk
 

Andere mochten auch (13)

VizThink Munich Meetup #vizthinkmuc3
VizThink Munich Meetup #vizthinkmuc3VizThink Munich Meetup #vizthinkmuc3
VizThink Munich Meetup #vizthinkmuc3
 
Teléfonos celulares de antes
Teléfonos celulares de antesTeléfonos celulares de antes
Teléfonos celulares de antes
 
Presentacion personal
Presentacion personalPresentacion personal
Presentacion personal
 
Splunk for DevOps - Faster Insights - Better Code
Splunk for DevOps - Faster Insights - Better CodeSplunk for DevOps - Faster Insights - Better Code
Splunk for DevOps - Faster Insights - Better Code
 
Splunk corporate overview German 2012
Splunk corporate overview German 2012Splunk corporate overview German 2012
Splunk corporate overview German 2012
 
Introducing Splunk – The Big Data Engine
Introducing Splunk – The Big Data EngineIntroducing Splunk – The Big Data Engine
Introducing Splunk – The Big Data Engine
 
Machine Data 101 Hands-on
Machine Data 101 Hands-onMachine Data 101 Hands-on
Machine Data 101 Hands-on
 
Splunk Webinar: Splunk for Microsoft Exchange
Splunk Webinar: Splunk for Microsoft ExchangeSplunk Webinar: Splunk for Microsoft Exchange
Splunk Webinar: Splunk for Microsoft Exchange
 
Splunk Webinar Searching & Reporting
Splunk Webinar Searching & ReportingSplunk Webinar Searching & Reporting
Splunk Webinar Searching & Reporting
 
Threat Hunting with Splunk Hands-on
Threat Hunting with Splunk Hands-onThreat Hunting with Splunk Hands-on
Threat Hunting with Splunk Hands-on
 
Splunk und das Triage Tool THOR
Splunk und das Triage Tool THORSplunk und das Triage Tool THOR
Splunk und das Triage Tool THOR
 
Getting business-relevant insights from machine data with Splunk and Hadoop
Getting business-relevant insights from machine data with Splunk and HadoopGetting business-relevant insights from machine data with Splunk and Hadoop
Getting business-relevant insights from machine data with Splunk and Hadoop
 
DAK Gesundheit - die Erfolgsstory
DAK Gesundheit - die ErfolgsstoryDAK Gesundheit - die Erfolgsstory
DAK Gesundheit - die Erfolgsstory
 

Ähnlich wie Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?

SplunkLive! Zürich 2016 - Use Case Helvetia
SplunkLive! Zürich 2016 - Use Case HelvetiaSplunkLive! Zürich 2016 - Use Case Helvetia
SplunkLive! Zürich 2016 - Use Case Helvetia
Splunk
 
DSpace as publication platform
DSpace as publication platformDSpace as publication platform
DSpace as publication platform
redsys
 
Apache Solr vs. Elasticsearch - And The Winner Is...! Ein Vergleich der Shoot...
Apache Solr vs. Elasticsearch - And The Winner Is...! Ein Vergleich der Shoot...Apache Solr vs. Elasticsearch - And The Winner Is...! Ein Vergleich der Shoot...
Apache Solr vs. Elasticsearch - And The Winner Is...! Ein Vergleich der Shoot...
SHI Search | Analytics | Big Data
 

Ähnlich wie Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk? (20)

OpenAIRE guidelines for data and literature repositories webinar_28022017
OpenAIRE guidelines for data and literature repositories webinar_28022017OpenAIRE guidelines for data and literature repositories webinar_28022017
OpenAIRE guidelines for data and literature repositories webinar_28022017
 
Oracle hadoop doag-big-data_09_2014_gpi
Oracle hadoop doag-big-data_09_2014_gpiOracle hadoop doag-big-data_09_2014_gpi
Oracle hadoop doag-big-data_09_2014_gpi
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data Konnektivität
 
SplunkLive! Zürich 2016 - Use Case Helvetia
SplunkLive! Zürich 2016 - Use Case HelvetiaSplunkLive! Zürich 2016 - Use Case Helvetia
SplunkLive! Zürich 2016 - Use Case Helvetia
 
SplunkLive! Zürich 2016 - Use Case Helvetia
SplunkLive! Zürich 2016 - Use Case HelvetiaSplunkLive! Zürich 2016 - Use Case Helvetia
SplunkLive! Zürich 2016 - Use Case Helvetia
 
SplunkLive! Frankfurt 2016 - Helvetia Use Case
SplunkLive! Frankfurt 2016 - Helvetia Use CaseSplunkLive! Frankfurt 2016 - Helvetia Use Case
SplunkLive! Frankfurt 2016 - Helvetia Use Case
 
DSpace as publication platform
DSpace as publication platformDSpace as publication platform
DSpace as publication platform
 
Apache Solr vs. Elasticsearch - And The Winner Is...! Ein Vergleich der Shoot...
Apache Solr vs. Elasticsearch - And The Winner Is...! Ein Vergleich der Shoot...Apache Solr vs. Elasticsearch - And The Winner Is...! Ein Vergleich der Shoot...
Apache Solr vs. Elasticsearch - And The Winner Is...! Ein Vergleich der Shoot...
 
Repository Usage Statistics and the Open Research Analytics Service
Repository Usage Statistics and the Open Research Analytics ServiceRepository Usage Statistics and the Open Research Analytics Service
Repository Usage Statistics and the Open Research Analytics Service
 
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
 
CKAN by Friedrich Lindenberg
CKAN by Friedrich LindenbergCKAN by Friedrich Lindenberg
CKAN by Friedrich Lindenberg
 
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
 
Applikationsmodernisierung: Der Weg von Legacy in die Cloud
Applikationsmodernisierung: Der Weg von Legacy in die CloudApplikationsmodernisierung: Der Weg von Legacy in die Cloud
Applikationsmodernisierung: Der Weg von Legacy in die Cloud
 
XPages: Performance-Optimierung - Ulrich Krause (eknori) SNoUG 2013
XPages: Performance-Optimierung  - Ulrich Krause (eknori) SNoUG 2013XPages: Performance-Optimierung  - Ulrich Krause (eknori) SNoUG 2013
XPages: Performance-Optimierung - Ulrich Krause (eknori) SNoUG 2013
 
Apache Kafka
Apache KafkaApache Kafka
Apache Kafka
 
Drupal Austria Roadshow in Klagenfurt
Drupal Austria Roadshow in KlagenfurtDrupal Austria Roadshow in Klagenfurt
Drupal Austria Roadshow in Klagenfurt
 
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)
 
Data Lake Architektur: Von den Anforderungen zur Technologie
Data Lake Architektur: Von den Anforderungen zur TechnologieData Lake Architektur: Von den Anforderungen zur Technologie
Data Lake Architektur: Von den Anforderungen zur Technologie
 
Textanalyse mit UIMA und Hadoop
Textanalyse mit UIMA und HadoopTextanalyse mit UIMA und Hadoop
Textanalyse mit UIMA und Hadoop
 
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
 

Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?

  • 1. Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk? Dr. Kurt Stockinger Dozent für Informatik Zürcher Hochschule für Angewandte Wissenschaften DW 2013, 12. November 2013, Zürich
  • 2. Inhalt •  Überblick über ZHAW und Data Science Lab •  Use Cases für Analyse von Applikations- und Query-Logs •  Technologien: •  Datenbanken •  Hadoop •  Splunk •  Implementierung der Use Cases mit den 3 Technologien 2
  • 3. CV Kurt Stockinger •  Dozent an der ZHAW seit 1. August 2013 •  2007-2013: Data Warehouse & Business Intelligence Architect bei Credit Suisse, Zürich & Forschungsprojekte mit ETH Zürich •  2004-2007: Forschungstätigkeit am Lawrence Berkeley National Laboratory, Berkeley, Kalifornien (Scientific Data Management) •  2002-2003: Forschungstätigkeit am CERN (Grid Computing, Datenbanken) •  1999-2001: Doktorat in Informatik am CERN (Zugriffsoptimierung für objektorientierte Datenbanken) Gastforscher am California Institute of Technology, Pasadena, Kalifornien 3
  • 4. Zürcher Hochschule für Angewandte Wissenschaften (ZHAW) •  Geht zurück auf Technikum in Winterthur •  Gegründet 1874 •  Seit 2007 existiert Name ZHAW: •  Zusammenschluss mehrerer Hochschulen im Kanton Zürich •  Zurzeit mehr als 10‘000 Studierende •  Standorte in Zürich, Winterthur und Wädenswil •  Prominentester Dozent: •  1901: Albert Einstein 4
  • 5. Datalab = Data Science @ ZHAW •  Eines der ersten Data Science Labs in Europa (wenn nicht sogar das erste) •  Zusammenschluss von Informatikern, Statistikern, Mathematikern und Physikern zur Lösung von Data Science Problemen in Forschung und Lehre: •  Institut für Angewandte Informationstechnologie •  www.init.zhaw.ch •  Institut für Datenanalyse und Prozessdesign •  www.idp.zhaw.ch 5
  • 6. Data Scientist T. Stadelmann, K. Stockinger, M. Braschler, M. Cieliebak, G. Baudinot, O. Dürr, A. Ruckstuhl, Applied Data Science in Europe. In: European Computer Science Summit. ECSS 2013. Amsterdam, The Netherlands: IEEE. http://pd.zhaw.ch/publikation/upload/204718.pdf 6
  • 7. 7
  • 8. Inhalt •  Überblick über ZHAW und Data Science Lab •  Use Cases für Analyse von Applikations- und Query-Logs •  Technologien: •  Datenbanken •  Hadoop •  Splunk •  Implementierung der Use Cases mit den 3 Technologien 8
  • 9. Use Cases •  Web Log Analyse •  Applikations Log Analyse •  DWH Query Log Analyse 9
  • 10. Web Log Analyse •  Gegeben: •  Log Files von Webserver für eCommerce: •  z.B. Online Shop, eBanking, Produktdokumentation & Hilfe •  Gesucht: •  •  •  •  Welche Artikel werden gesucht? Wie verändert sich das Suchverhalten über die Zeit? Von welchen Lokationen greifen die Benutzer darauf zu? Welche Seiten wurden nie angesehen? 10
  • 11. Beispiel: Web Log Standardisierte Logs:: 91.57.78.223 - - [09/Sep/2013:00:00:06 +0200] "GET /assets/static/ dojo-0.4.3-custom-4.1.5/nls/dojo_de.js HTTP/1.1" 200 884 "http:// www.superapp.info/product/DataScienceKit" "Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/ 28.0.1500.71 Chrome/28.0.1500.71 Safari/537.36" 11
  • 12. Applikations Log Analyse •  Gegeben: •  Logfiles von unterschiedlichen Applikationen der eigenen Firma •  Jedes Logfile hat anderes Format •  Jede Applikation hat andere Funktionen, die für Auswertung relevant sind •  Gesucht: •  •  •  •  Wer sind die Hauptkunden? Werden bestimmte Funktionen einer Applikation aufgerufen? Was sind die häufigsten Fehlermeldungen über welchen zeitlichen Verlauf? Sieht man Korrelationen zwischen einzelnen Ereignissen? 12
  • 13. Beispiel: Applikationslog Logs von unterschiedlichster Struktur:: 2013/10/11 – getUser(„Schrödinger“) – Visting time: 32 sec 2013-Oct-14,14:30 Error – User „xyz“ not allowed to execute task 2013-27-10 eCommerce: Buy artile: „Schrödinger‘s Cat Trilogy, Robert Anthon Wilson, 1979“ 13
  • 14. DWH Query Log Analyse •  Gegeben: •  DWH Query Logs (ausgeführte SQL Statements) •  Gesucht: •  •  •  •  •  Wer hat welche Queries ausgeführt? Über welchen Zeitraum? Gibt es Korrelationen zwischen den Benutzern? Welche Tabellen wurden am häufigsten abgefragt? Gibt es Zugriffsverletzungen oder sind bestimmte Zugriffsrechte falsch vergeben? 14
  • 15. Beispiel: DWH Query Log im XML Format <xml> <audit> <username> john_smith </username> <timestamp> 21/12/2012 23:59:59 </timestamp> <sql_query> SELECT * FROM sales S, customers C WHERE S.customer_ID = C.id AND C.hair_color = black </sql_query> … </audit> </xml> 15
  • 16. Inhalt •  Überblick über ZHAW und Data Science Lab •  Use Cases für Analyse von Applikations- und Query-Logs •  Technologien: •  Datenbanken •  Hadoop •  Splunk •  Implementierung der Use Cases mit den 3 Technologien 16
  • 17. Data Warehouse basierend auf relationale Datenbanktechnologie §  Relationale Datenbanken §  §  §  seit den 70er ETL (extract, transform, load) = Kitt zwischen DWH-Schichten Sehr effizient für Prozessierung von struktierten und normalisierten Daten Parallele Datenbank für High Performance 17
  • 18. Hadoop Überblick “A scalable, fault-tolerant, distributed storage and computation platform” App Node 1 Hadoop Map Node N Reduce Map Reduce HDFS 18
  • 19. Pig Überblick Pig Latin ist eine SQL-ähnliche Sprache Jedes Statement wird on-the-fly in MapReduce kompiliert Pig Statements werden auf Hadoop ausgeführt PIG Script Runtime compiler Map Final results stored in HDFS Map MapReduce Code Map Shuffle & Sort Hadoop cluster Reduce Reduce 19
  • 20. Splunk Überblick Kommerzielles, closed-source Produkt zur Indizierung und Suche von Log-Daten Intuitives Interface und Suchsprache (entspricht Goolge-Suche + Erweiterungen) Indizes sind verteilt, jedoch keine Replication von Daten und Index 20
  • 21. Kombination von Hadoop und Splunk 21
  • 22. Inhalt •  Überblick über ZHAW und Data Science Lab •  Use Cases für Analyse von Applikations- und Query-Logs •  Technologien: •  Datenbanken •  Hadoop •  Splunk •  Implementierung der Use Cases mit den 3 Technologien 22
  • 23. Datenbanken •  Grundsätzlich sind Datenbanken für Analyse von strukturieren Daten konzipiert •  Log Files sind jedoch semi-strukturiert oder unstrukturiert •  Extrahierungsschritt muss ausserhalb der Datenbank erfolgen (Textextrahierung) •  Danach können Ergebnisse strukturiert in Datenbank abgelegt werden •  Visualisierung und Analyse erfolgt typischer Weise via Business Intelligence Tools •  Pro: •  Etablierte Tools vorhanden •  Gute Unterstützung von Zugriffsverwaltung •  Con: •  Drei unterschiedliche Tools notwendig •  Eigentlich haben wir hier kein Datenbankproblem 23
  • 24. Hadoop •  Log Files können direkt mit Hadoop prozessiert werden: •  Low-level API: MapReduce + Java •  High-level Progammiersprache: Pig Latin •  Analyse und Auswertung erfolgt ebenfalls in Hadoop •  Visualisierung der Ergebnisse mit anderem Tool •  Pro: •  End-to-end-processing in einem skalierbaren Tool •  Open-source Software •  Con: •  Zugriffsverwaltung noch nicht ausgereift •  Visualisierung durch externes Tool •  Know-how noch nicht so stark verbreitet (Data Scientists werden benötigt) 24
  • 25. Splunk •  Log Files können direkt mit Splunk prozessiert werden: •  Web Log Files werden direkt erkannt •  Python API erlaubt Erweiterungen •  Visualisierung erfolgt direkt mit Splunk •  Zugriffsberechtigungen können über Dashboards gesteuert werden •  Pro: •  Integriertes System (End-to-end Auswertung + Visualisierung) •  Zugriffsverwaltung •  Kombination mit Hadoop möglich •  Con: •  Entwicklung von komplexen Dashboards nicht trivial •  Gewisse Lernkurve für Aufsetzen der Infrastruktur und Einschulung der Entwickler 25
  • 26. Nächste Schritte •  Analyse von Log Files ermöglicht breite Anwendungsmöglichkeiten •  Recommender Systems: •  Vorschlagen von ähnlichen Produkten •  Anwendungen: •  Marketing, etc. •  Machine Learning: •  Lernen von Benutzerverhalten und Zugriffsmuster •  Erkennen von Produktaffinitäten von Benutzern •  Anwendung: •  Marketing, Fraud detection, Kundenbetreuung 26
  • 27. Zusammenfassung •  Analyse von Log Files ist kein Datenbankproblem und sollte nicht über das DWH gemacht werden. •  Kombination mit Hadoop erlaubt skalierbaren Ansatz. •  Einsatz von Splunk hat sich in der Praxis gut bewährt. •  Log Analyse ist typisches Problem für Data Scientists: •  Weltweit eine rare Spezies •  Aber: •  •  •  •  Swiss Data Science Workshop im März 2014: Anmeldung ab Mitte Nov. Wir arbeiten an einem Curriculum für Data Scientists. DAS Data Science für Herbstsemester 2014 geplant. Kontakt: Kurt.Stockinger@zhaw.ch 27