SlideShare ist ein Scribd-Unternehmen logo
1 von 154
Datenanalyse in der Praxis
Agenda
 Datenanalyse am Beispiel
 Datenanalyse im Enterprise Bereich
Datenanalyse am Beispiel
 Aufgabe:
 Wo begegnet uns Datenanalyse ?
 Sammelt Beispiele aus eurem Wissen!
Kursziel
 Einblick in Datenanalyse
 Architekturen kennen
 Methoden und Konzepte Kennenlernen
 Gelerntes praktisch ausprobieren
 Ausprägungen kennen lernen
Agenda des Kurses
 Grundlagen von Datenanalyse und Beispiele
 Datenanalyse in Unternehmen
 Freie Daten und Datenquellen
 Datenanalyse am Beispiel mit Power *
 Andere Formen der Datenanalyse
Ausprägungen von Datenanalyse
Data Warehouse Systeme
Motivation
Datenanalyse
im Enterprise
Bereich
Folienherkunft
 Teile der Folien im folgenden Abschnitt stammen aus der Vorlesung
Datenmanagement im Gesundheitssystem aus dem Jahr 2011ff an der Universität
Oldenburg, die von mir mitentwickelt und gehalten worden ist
Beispielhaftes Szenario
Dipl.-Inform. Yvette Teiken 06.03.2016
Entwicklung DB Schema
Dipl.-Inform. Yvette Teiken 06.03.2016
DB Nutzung
 Anfragen:
 Wie viele Flaschen Cola wurden letzten Monat verkauft?
 Wie hat sich der Verkauf von Rotwein im letzten Jahr entwickelt?
 Wer sind unsere Top-Kunden?
 Von welchem Lieferanten beziehen wir die meisten Kisten?
 Probleme
 Nutzung externer Quellen (Kundendatenbank, Konsumdaten,... )
 Daten mit zeitlichem Bezug
Dipl.-Inform. Yvette Teiken 06.03.2016
Erweitertes Szenario
Dipl.-Inform. Yvette Teiken 06.03.2016
DB Nutzung II
 Anfragen
 Verkaufen wir in Hannover mehr Bier als in Oldenburg?
 Wie viel Cola wurde im Sommer in ganz Niedersachsen verkauft?
 Mehr als Wasser?
 Probleme
 Anfragen über mehrere Datenbanken
 Anfragen mit Geographiebezug
Dipl.-Inform. Yvette Teiken 06.03.2016
Mögliche Lösungen
 Variante 1: „Verteilte DB“
 Globale Anfrage über mehrere DBs Views mit Union
 Nachteil: aufwändige verteilte Anfrageausführung
 Variante 2: „Zentrale DB“
 Änderungen über einer zentralen DB
 Nachteil: lange Antwortzeiten im operativen Betrieb
Dipl.-Inform. Yvette Teiken 06.03.2016
Lösung: Data Warehouse (DWH)
Dipl.-Inform. Yvette Teiken 06.03.2016
Beispiele aus der Praxis
 Wal-Mart (www.wal-mart.com)
 Marktführer im amerikanischen Einzelhandel
 Unternehmensweites Data Warehouse
 Größe: ca. 300 TB (2003)
 [Jim Gray, Computer Zeitung 17/2003]
 Täglich bis zu 20.000 DW-Anfragen
 Hoher Detaillierungsgrad (tägliche Auswertung von Artikelumsätzen, Lagerbestand, Kundenverhalten)
 Basis für Warenkorbanalyse, Kundenklassifizierung, . . .
 Ebay
 Data Warehouse
 6+ Petabyte mit 17 * 10^12 Datensätzen
 täglich 150 * 10^9 Aktualisierungen
 2 Petabyte Data Warehouse zu Analysezwecken
 [North 2010], [DBMS2 2009]
Dipl.-Inform. Yvette Teiken 06.03.2016
Beispiele aus der Praxis
 Bundesagentur für Arbeit
 Öffentliche Verwaltung
 Unternehmensweites Data Warehouse
 Größe: ca. 17 TB (2010),
 [Bauer Günzel, 2009]
 15.000 Anwender
 Integriert 80 Datenquellen und führt monatliche Aktualisierungen um Umfang von 250GB
durch
 Basis für Arbeitsmarktberichterstattung und Controlling
 Keine Basisdatenbank fürs DWH
 DWH wird direkt aus den Externen und internen Quellen geladen
Dipl.-Inform. Yvette Teiken 06.03.2016
Beispielhafte Fragestellungen
 Überprüfung des Warensortiments zur Erkennung von Ladenhütern oder
Verkaufsschlagern
 Standortanalyse zur Einschätzung der Rentabilität von Niederlassungen
 Untersuchung der Wirksamkeit von Marketing-Aktionen
 Auswertung von Kundenbefragungen, Reklamationen bzgl. bestimmter Produkte etc.
 Analyse des Lagerbestands
 Warenkorbanalyse mit Hilfe der Kassenbons
 Erstellung von Statistiken, Publikationen und Analysen sowie Controlling
 Wie viele Personen waren in einem Gebiet arbeitslos?
 Wie ist die prozentuale Verteilung bezogen auf alle Arbeitssuchenden?
 Wurden die vordefinierten Ziele zur Vermittlungsquote Bundesweit, Landesweit oder
Gebietsweit erfüllt?
Dipl.-Inform. Yvette Teiken 06.03.2016
Beispiel Gesundheitswesen
 Beispiel Epidemiologisches Krebsregister Niedersachsen (EKN)
 EKN ist ein DWH (Auswertungsplattform MUSTANG)
 Quelldaten:
 Keine direkten Quellsysteme
 Explizite Datenerfassung, Meldungen über Neuerkrankungen
 Beispiele für Analysefragestellungen:
 Erfasste Neuerkrankungen
 Erkrankungsalter
 Nach Diagnosen
Dipl.-Inform. Yvette Teiken 06.03.2016
Beispiel EKN Analyse
Dipl.-Inform. Yvette Teiken 06.03.2016
Technische Einführung
Dr. Yvette Teiken
Agenda
 Klassische Architekturen / Referenzarchitektur
 Ausprägungen in der Praxis
Anforderungen an ein DWH
 Unabhängigkeit zwischen Datenquellen und Analysesystemen, Daten im DWH sind
redundant
 Dauerhafte Bereitstellung integrierter Daten
 Einheitliche Sicht auf bereitgestellte Daten
 Mehrfachverwendung der bereitgestellten Daten
 Durchführung beliebiger Anfragen
 Erweiterbarkeit (insb. neue Datenquellen)
 Automatisierung
Dipl.-Inform. Yvette Teiken 06.03.2016
Definition Data Warehouse (1)
 Data Warehouse (DWH) =
 “A subject oriented, integrated, nonvolatile, time variant collection of data organized to
support management needs” [Inmon 1993]
 Merkmale:
 Themenorientierung
 Integration und Vereinheitlichung
 Dauerhaftigkeit, Stabilität
 Zeitorientierung der Informationen
 Analyse und Entscheidungsunterstützung für das Management
Dipl.-Inform. Yvette Teiken 06.03.2016
Charakteristika von DWH
 Themenorientierung (subject-oriented):
 Zweck des Systems ist nicht Erfüllung einer Aufgabe (z.B. Personaldatenverwaltung),
sondern Modellierung eines spezifischen Anwendungsziels (Produkte, Kunden)
 Integrierte Datenbasis (integrated):
 Verarbeitung von Daten aus mehreren verschiedenen Datenquellen (intern und extern)
 Nicht-flüchtige Datenbasis (non-volatile):
 stabile, persistente Datenbasis
 Daten im DWH werden nicht mehr entfernt oder geändert
 Zeitbezogene Daten (time-variant):
 Speicherung über längeren Zeitraum
 Vergleich der Daten über Zeit möglich (Zeitreihenanalyse)
Dipl.-Inform. Yvette Teiken 06.03.2016
Definition Data Warehouse (2)
 Data Warehouse (DWH) =
 “Physische Datenbank, die eine integrierte Sicht auf (beliebige) Daten darstellt. Im
Unterschied zur Basisdatenbank, steht der Auswertungsaspekt (analyseorientiertes
Schema) im Mittelpunkt, der sich oft in einem multidimensionalen Schema widerspiegelt.
Häufig, aber nicht notwendigerweise findet eine Historisierung der Daten statt, indem in
periodischen Abständen Daten hinzugeladen, aber nicht modifiziert werden.” [Bauer Günzel
2009]
 Wichtige Unterscheidung zu Inmon:
 Es fehlt „to support management needs“
 Z.B. Datenanalyse von Patientendaten fördert Behandlungswissen, nicht Management
Dipl.-Inform. Yvette Teiken 06.03.2016
Weitere Begriffe
 Data Warehousing
 „Data Warehousing ist kein Produkt, sondern der Prozess der Zusammenführung und des
Managements von Daten aus verschiedenen Quellen mit dem Zweck, eine einheitliche,
detaillierte Sicht auf den einzelnen Geschäftsbereich oder das gesamte Unternehmen zu
erhalten.“[Jung, Winter 2000]
 „alle Schritte des Datenbeschaffungsprozesses, das Speichern und Analysieren der Daten“
[Bauer Günzel 2009]
 Data Mart
 externe (Teil-)Sicht auf das Data Warehouse
 durch Kopieren
 anwendungsbereichsspezifisch
 OLAP (Online Analytical Processing) (Paradigma)
 explorative, interaktive Analyse auf Basis des konzeptuellen
Datenmodells
 Business Intelligence
 ….
Dipl.-Inform. Yvette Teiken 06.03.2016
Referenzarchtiektur nach [Bauer Günzel 2001]
06.03.2016Dipl.-Inform. Yvette Teiken
Daten-
quelle(n)
Arbeits-
bereich
Basis-
datenbank
Data
Warehouse
Extraktion Laden Laden Analyse
Transformation
Monitor
Data-Warehouse-
Manager
Metadaten-
Manager
Repository
Datenfluss
Kontrollfluss Data-Warehouse-System
Bereich der Datenbeschaffung
Bedeutung für
die Praxis
Referenzarchitektur
 Jede Datenanalyse basiert auf dieser Architektur
 Selten vollständig
 Techniken und Konzepte sind identisch, egal
 EDW, PDW, Analytisches Data Warehouse
 Big Data
 Desktop Analyse
Beispiel aus der Praxis I
 Krankenkasse
 Besonderheit:
 Gesundheitsrelevante Daten
 Fachbereich
Beispiel aus der Praxis II
 Handelskonzern
 Besonderheit: Lagerlogistik und Bestellwesen
Beispiel aus der Praxis III
 Krankenkasse
 Besonderheit: Spezialauswertung für Leihprozesse
Beispiel aus der Praxis IV
 Amazon Redshift
 http://aws.amazon.com/de/redshift/
 Frage:
 Was wird angeboten?
 Wobei hilft es?
 Welche Probleme löst es nicht
BI-Reifegradmodelle
Dipl.-Inform. Yvette Teiken 06.03.2016
Datenanalyse
am Beispiel
Self Service BI
 Idee: Nutzer ohne große BI Infrastruktur Daten Analysieren zu lassen
Extrahieren
Säubern
Transformieren
Auswerten
Teilen
Power BI
 Neue Strategie für Datenanalyse bei Microsoft
 Grundlage: Microsoft Excel
 Bestandteile
 Power Query (Extract und Transform)
 Power Pivot (Transformieren)
 Powerview (Auswerten)
 Power Map (Geografische Analyse)
 Vorteil
 In vielen Firmen verfügbar
 Nutzer sind vertraut mit Verwendung
 Lässt sich in Infrastruktur integrieren
Power Query I
 Laden von verschiedenen Datenquellen
 Interaktive und wiederholbare Anfragen erstellen
Power Query II
Datenquelle Web: wikipedia
http://de.wikipedia.org/wiki/Krankenhaus
Krankenhaus Daten laden I
Krankenhaus Daten laden II
Krankenhaus Daten auswerten
Demo
http://de.wikipedia.org/wiki/Krankenhaus
Laden aus Api: XML
http://daten.berlin.de/datensaetze/liste-der-badestellen-badegew%C3%A4sserqualit%C3%A4t
XML Struktur Analysieren
http://www.berlin.de/badegewaesser/baden-details/index.php/index/all.xml?q=
Drill Down zur Tabelle
Demo
http://www.berlin.de/badegewaesser/baden-details/index.php/index/all.xml?q=
Weitere Anbindungsmöglichkeiten
Transformation
Transformations
Große Übung Datenanalyse
Große Übung
 Ziel: Analyse der Straßenunfälle in UK
 Ausfälligkeiten
 Tage
 Alter
 Straßen
 Tageszeiten
 Beispiel stammt von Chris Webb (http://blog.crossjoin.co.uk/) Einreichung zum
PowerBi Wettbewerb. Demo von ihm:
https://www.youtube.com/watch?v=War1pSs2LAM
Vorgehen
 Extrahieren: Daten laden und dem Modell
hinzufügen
 Säubern: Nicht notwendig
 Transformieren
 Zeit Hierarchie
 Dimensionstabellen verknüpfen
 Auswerten
 Interaktive Diagramme erstellen
Extrahieren
Säubern
Transformieren
Auswerten
Teilen
Datenintegration
 Lade Daten mittels Ordner
 Ins Datenmodell laden
 Verknüpfen
 Ein Jahr sollte zunächst reichen
Ergebnisse prüfen
Power View aufrufen
Ergebnis Datenintegration
Aggregation
 Verdichten oder detaillieren Daten
 Beliebtes Beispiel Zeit
Jahr Monat Tag
Dimensionstabelle Zeit
Dimensionstabelle Zeit
 Zeit zum Datenmodell hinzufügen
 Verknüpfung mit Datensätzen auf niedrigster Ebene
 Erstellung von Hierarchien
Datenmodell mit Zeitdimension
Transformieren
 Aufgaben
 Daten in das Ziel Format übertragen
 Daten vereinheitlichen (Geschlecht)
 Daten auflösen
Dimensionstabellen I
Dimensionstabellen II
 Müssen zum Datenmodell hinzugefügt werden
 Müssen verknüpft werden
 IDs ausblenden
 Dimensionen nach Analysezweck auswählen
Vollständiges Modell mit Dimensionen
Meine Ergebnisse
Unfälle nach Jahr als Tabelle
Vergleich über Jahre
KPI definieren
Analyse nach Alter
Farbscala
Gefährliche Tage
Fußgängerunfälle
Auswertung nach Wochentagen
Daten und freie
Daten
Woher kommen Daten
 Offene Datenquellen (Open data)
 Non Open Data
Open (Government) Data
 „Offene Daten sind Daten, die von jedem/r
frei benutzt, weiterverwendet und geteilt
werden können – die einzige
Einschränkung betrifft die Verpflichtung auf
die Nennung des Urhebers“
10 Prinzipien
 Vollständigkeit
 Primärquelle
 Zeitliche Nähe
 Leichter Zugang
 Maschinenlesbarkeit
 Diskriminierungsfreiheit
 Verwendung offener Standards
 Offene Lizenzierung
 Dauerhaftigkeit
 Kostenfreiheit
http://sunlightfoundation.com/policy/documents/ten-open-data-principles/
Warum ?
 Neelie Kroes
 EU Kommissarin für digitale Agenda
 „Geben Sie ihre Daten frei, um
Arbeitsplätze und Wachstum zu
schaffen“
Nutzen
 Wirtschaftlicher Nutzen
 Bürger-Nutzen
 Transparenz
 Verwaltung
Arten von Daten
 1. Umweltdaten (Feinstaub, CO2, Pollen)
2. Märkte (Wochen-, Floh-, Weihnachtsmärkte)
3. Events (Straßenfeste, Konzerte, Lange Nacht der …, Sportereignisse)
4. Entsorgung (Termin in meiner Straße, Recyclinghöfe, Containerstandorte, Sondermüll)
5. Infrastruktur (Radwege, Toiletten, Briefkästen, Geldautomaten, Telefone)
6. Verkehr (Baustellen, Staus, Sperrungen)
7. Nahverkehr (Fahrpläne, Verspätungen, Zugausfälle, Sonderfahrten)
8. Öffnungszeiten (Bibliotheken, Museen, Ausstellungen)
9. Verwaltung (Formulare, Zuständigkeiten, Ämter, Öffnungszeiten)
10. Verbraucherberatung, Schuldnerberatung
11. Familie (Horte, Kindergärten)
12. Bildung (Schulen, Volkshochschulen, Hochschulen und Unis)
13. Wohnen (Wohngeld, Mietspiegel, Immobilien, Grundstückspreise)
14. Gesundheit (Krankenhäuser, Apotheken, Notdienst, Spezialisten, Beratungsstellen, Blutspende)
15. Haustiere (Tierärzte, Tierheim, Tierpflege)
16. Kontrolle (Badegewässer, Lebensmittel, Gaststätten, Preise)
17. Recht (Gesetze, Vorschriften, Beratung, Schlichter, Gutachter)
18. Polizeiticker (aktuelle Vorfälle, Fahndung, Kriminalitätsatlas)
19. Stadtplanung (Flächennutzungsplan, Bauvorhaben, Verkehr, Flughäfen)
20. Bevölkerung (Zahl, regionale Verteilung, Demografie, Kaufkraft, Beschäftigung/Arbeitslosigkeit,
Kinder)
21. Finanzdaten (Budgets, Aufträge, Verträge)
Crowd Sourcing http://codefor.de/
Beispiel Berlin
http://daten.berlin.de/datensaetze
Open Data Berlin
 885 Datensätze in 22 Kategorien
 Beispiele
 Finanzamt Atlas Berlin
 Straßen und Volksfester
 Liste der Badestellen
 Denkmalliste
 Arbeitslosenquote
Weltbank
 Idee: Globale Zusammenhänge verstehen
Datenportal für Deutschland
https://www.govdata.de/
Datenportal der EU
http://publicdata.eu/
Datenportal UK
http://data.gov.uk/
(Inoffizieller) Metakatalog für Open Data in
Deutschland
https://offenedaten.de/
Open Data Klassifikation
http://5stardata.info/
1 Stern
 Daten sind verfügbar, egal in welchem Format, aber nutzt offene Lizenz
1 Stern - Vorteile
 Als Datenkonsument
 Daten können angesehen werden
 Drucken
 Lokal speicherbar
 Ändern wie man will
 Man kann es jedem teilen
 Als Daten Bereitsteller
 Einfach zu veröffentlichen
 Man muss die Verwendung nicht
erläutern
2 Sterne
 Daten sind als strukturierte Daten verfügbar
 Z. B. Excel statt einem pdf
2 Sterne Vorteile
 Als Datenkonsument
 Mann kann alles wie unter 1 Stern und
 Daten können direkt mit Software
verarbeitet werden (Berechnungen,
Visualisierungen)
 Es kann zu anderen Formaten exportiert
werden
 Als Daten Bereitsteller
 Publizieren ist immer noch einfach
3 Sterne
 Es werden urheberrechtliche nicht geschützte Formate verwendet
 CSV statt Excel
3 Sterne Vorteile
 Als Datenkonsument
 Alles was mit 2 Sterne geht
 Daten können auf beliebige Weise
manipuliert werden
 Kann mit beliebiger Software manipuliert
werden
 Als Daten Bereitsteller
 Es werden ggf. Plug-Ins zum Publizieren
benötigt
 Immer noch relativ einfache
Bereitstellung
4 Sterne
 Verwende Uris um Daten zugreifbar zu machen, damit Leute das verweisen können
4 Sterne Vorteile
 Als Datenkonsument
 Daten können verlinked werden
 Man kann es Bookmarken
 Teile der Daten wieder verwenden
 Kann Daten mit anderen Daten
kombinieren
 Als Daten Bereitsteller
 Granularere Kontrolle über Daten
 Andere Bereitsteller können die Daten
verlinken
5 Sterne
 Verlinkte Daten zu anderen und liefere Kontext
5 Sterne Vorteile
 Als Datenkonsument
 Mehr verknüpfte Daten finden wenn man
Daten verwendet
 Man muss mit kaputten Links umgehen
 Sicherheitsrisiko wenn Daten von
fremden Quellen importiert werden
 Als Daten Bereitsteller
 Daten sind entdeckbar
 Wert der Daten erhöht sich
 Man profitiert genauso wie der
Konsument
Übung zu Open Data
 Ziel: Überblick über offene Datenquellen zu bekommen
 Fragen
 Welche Art von Daten werden bereitgestellt?
 Welche Daten findet ihr besonders interessant und warum?
 Wie granular sind die Daten?
 Wie sind die zugänglich?
 Bewertung der Datenquelle
 Präsentation im Plenum
 Gruppen
 Global: Weltbank.org
 UK: Data.gov
 Deutschland: govdata.de
 EU: http://opendata.eu/
Non Open
Data
Andere Datenquellen
 Unternehmensdaten
 Internet Dienste
 Haben meistens eine API
 Registrieren
 Zugriff über Web Schnittstellen
Facebook Graph API
Demo Facebook API
 me
 erminasde/posts
 ewebaskets/posts
Beispiel: Social Media Analyse
Quelle: Facebook Datenströme
Verabeitung der Daten mit Hadoop
Analyse der Ergebnisse mit Excel
Andere Visualisierung
Twitter
Twitter Visualisierung
http://tweetping.net/
Twitter: Mehr lernen
 http://blogs.ischool.berkeley.edu/i290-abdt-
s12/
fitbit
Trakt.tv
Weitere Quellen
 http://www.programmableweb.com/
Datenanalyse
mit Tableau
Big Data
Agenda
 Überblick
 Was ist Hadoop
 Hive
 Map Reduce
 Pig
Die 3 Vs
Quelle: http://www.datasciencecentral.com/forum/topics/the-3vs-that-define-big-data
Was ist Big Data ?
Was ist Big Data?
Warum Big Data –Neue Zahlen
 2008: Google processes 20 PB a day
 2009: Facebook has 2.5 PB user data + 15 TB/day
 2009: eBay has 6.5 PB user data + 50 TB/day
 2011: Yahoo! has 180-200 PB of data
 2012: Facebook ingests 500 TB/day
Datenspeicherung
 Data storage is not trivial
 Data volumes are massive
 Reliably storing PBs of data is challenging
 Disk/hardware/network failures
 Probability of failure event increases with number ofmachines
 For example:
 1000 hosts, each with 10 disks
 a disk lasts 3 year
 how many failures per day?
Ursprünge
 Hadoop is an open-source implementation based on GFS and MapReduce from Google Sanjay
Ghemawat, Howard Gobioff, and Shun-Tak Leung. (2003)
 The Google File System Jeffrey Dean and Sanjay Ghemawat. (2004)
 MapReduce: Simplified Data Processing on Large Clusters OSDI 2004
Architektur
Eigeschaften
 A distributed file system
 Redundant storage
 Designed to reliably store data using commodity hardware
 Designed to expect hardware failures
 Intended for large files
 Designed for batch inserts
 The Hadoop Distributed File System
HDFS - files and blocks
 Files are stored as a collection of blocks
 Blocks are 64 MB chunks of a file (configurable)
 Blocks are replicated on 3 nodes (configurable)
 The NameNode (NN) manages metadata about files and blocks
 The SecondaryNameNode (SNN) holds a backup of the NN data
 DataNodes (DN) store and serve blocks
Replication
 Multiple copies of a block are stored
 Replication strategy:
 Copy #1 on another node on same rack
 Copy #2 on another node on different rack
Schreiben in HDFS
Lesen in HDFS
Ausfall Datenknoten
 DNs check in with the NN to report health
 Upon failure NN orders DNs to replicate under-replicated blocks
Arbeiten mit HDFS
Name Node
 Tool for browng HDFS
Job Tracker
Hive
Distributed Storage
(HDFS)
Query
(Hive)
Distributed Processing
(MapReduce)
ODBC
Legend
Red = Core
Hadoop
Blue = Data
processing
Purple =
Microsoft
integration
points and
value adds
Orange = Data
Movement
Green =
Packages
HDInsight / Hadoop Eco-System
Beispiel: Social Media Analyse
Quelle: Facebook Graph API
Verabeitung der Daten mit Hadoop
Analyse der Ergebnisse mit Excel
Eigene Map Reduce Tasks
Beispiel: Analyse von Freitext
Quelle: Plenarprotokolle Bundestag
Verarbeitung der Daten mit Hadoop
Analyse der Ergebnisse mit Excel
Zusammenfassung
 Coole Vorlesung zum Weiter machen http://blogs.ischool.berkeley.edu/i290-abdt-s12/
 Niemand in Deutschland hat Big Data!

Weitere ähnliche Inhalte

Andere mochten auch

Presentation DMF Cairo
Presentation DMF CairoPresentation DMF Cairo
Presentation DMF CairoAlain Issa
 
Directorio intermoda
Directorio intermodaDirectorio intermoda
Directorio intermodaProColombia
 
Diario Resumen 20150616
Diario Resumen 20150616Diario Resumen 20150616
Diario Resumen 20150616Diario Resumen
 
Edetabelid juhend 2014 - Estonian Amateur Ranking
Edetabelid juhend 2014 - Estonian Amateur RankingEdetabelid juhend 2014 - Estonian Amateur Ranking
Edetabelid juhend 2014 - Estonian Amateur Rankingpiretsepp
 
Revista instrumento evaluacion-curso
Revista instrumento evaluacion-cursoRevista instrumento evaluacion-curso
Revista instrumento evaluacion-cursoGustavo Davila
 
Solución de problemas crc 2013
Solución de problemas crc 2013Solución de problemas crc 2013
Solución de problemas crc 2013Carmen Coloma
 
Telit ip easy_user_guide_r17
Telit ip easy_user_guide_r17Telit ip easy_user_guide_r17
Telit ip easy_user_guide_r17nkr3434
 
application for admission international students
application for admission international studentsapplication for admission international students
application for admission international studentskushtrim isufi
 
Los Nuevos Canales de contacto con el cliente están cambiando. Anatomía del S...
Los Nuevos Canales de contacto con el cliente están cambiando. Anatomía del S...Los Nuevos Canales de contacto con el cliente están cambiando. Anatomía del S...
Los Nuevos Canales de contacto con el cliente están cambiando. Anatomía del S...Mundo Contact
 
Beelink Project - Thesis
Beelink Project - ThesisBeelink Project - Thesis
Beelink Project - ThesisAurélien Dor
 
Tu teléfono, mucho más que un móvil saca partido a tu smartphone (Araba Enco...
Tu teléfono, mucho más que un móvil  saca partido a tu smartphone (Araba Enco...Tu teléfono, mucho más que un móvil  saca partido a tu smartphone (Araba Enco...
Tu teléfono, mucho más que un móvil saca partido a tu smartphone (Araba Enco...Venan Llona
 
TLPS - Memorias visuales del territorio V31 - Cuadernillo 01.2014
TLPS - Memorias visuales del territorio V31 - Cuadernillo 01.2014TLPS - Memorias visuales del territorio V31 - Cuadernillo 01.2014
TLPS - Memorias visuales del territorio V31 - Cuadernillo 01.2014Taller Libre de Proyecto Social
 

Andere mochten auch (15)

Presentation DMF Cairo
Presentation DMF CairoPresentation DMF Cairo
Presentation DMF Cairo
 
Directorio intermoda
Directorio intermodaDirectorio intermoda
Directorio intermoda
 
Diario Resumen 20150616
Diario Resumen 20150616Diario Resumen 20150616
Diario Resumen 20150616
 
Edetabelid juhend 2014 - Estonian Amateur Ranking
Edetabelid juhend 2014 - Estonian Amateur RankingEdetabelid juhend 2014 - Estonian Amateur Ranking
Edetabelid juhend 2014 - Estonian Amateur Ranking
 
PORTAFOLIO DE AULA
PORTAFOLIO DE AULA PORTAFOLIO DE AULA
PORTAFOLIO DE AULA
 
Revista instrumento evaluacion-curso
Revista instrumento evaluacion-cursoRevista instrumento evaluacion-curso
Revista instrumento evaluacion-curso
 
Solución de problemas crc 2013
Solución de problemas crc 2013Solución de problemas crc 2013
Solución de problemas crc 2013
 
Telit ip easy_user_guide_r17
Telit ip easy_user_guide_r17Telit ip easy_user_guide_r17
Telit ip easy_user_guide_r17
 
application for admission international students
application for admission international studentsapplication for admission international students
application for admission international students
 
Los Nuevos Canales de contacto con el cliente están cambiando. Anatomía del S...
Los Nuevos Canales de contacto con el cliente están cambiando. Anatomía del S...Los Nuevos Canales de contacto con el cliente están cambiando. Anatomía del S...
Los Nuevos Canales de contacto con el cliente están cambiando. Anatomía del S...
 
Beelink Project - Thesis
Beelink Project - ThesisBeelink Project - Thesis
Beelink Project - Thesis
 
Global 1
Global 1Global 1
Global 1
 
Experto dirección de marketink y turismo
Experto dirección de marketink y turismoExperto dirección de marketink y turismo
Experto dirección de marketink y turismo
 
Tu teléfono, mucho más que un móvil saca partido a tu smartphone (Araba Enco...
Tu teléfono, mucho más que un móvil  saca partido a tu smartphone (Araba Enco...Tu teléfono, mucho más que un móvil  saca partido a tu smartphone (Araba Enco...
Tu teléfono, mucho más que un móvil saca partido a tu smartphone (Araba Enco...
 
TLPS - Memorias visuales del territorio V31 - Cuadernillo 01.2014
TLPS - Memorias visuales del territorio V31 - Cuadernillo 01.2014TLPS - Memorias visuales del territorio V31 - Cuadernillo 01.2014
TLPS - Memorias visuales del territorio V31 - Cuadernillo 01.2014
 

Ähnlich wie Datenanalyse in der Praxis

Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTiggesDas modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTiggesOPITZ CONSULTING Deutschland
 
Market Research Meets Business Intelligence
Market Research Meets Business IntelligenceMarket Research Meets Business Intelligence
Market Research Meets Business IntelligenceDataLion
 
Sabine Bühn, Bernd Aschauer (Aschauer IT & Business)
Sabine Bühn, Bernd Aschauer (Aschauer IT & Business)Sabine Bühn, Bernd Aschauer (Aschauer IT & Business)
Sabine Bühn, Bernd Aschauer (Aschauer IT & Business)Praxistage
 
SDIC'16 - Best Practices für Smart Data Projekte
SDIC'16 - Best Practices für Smart Data ProjekteSDIC'16 - Best Practices für Smart Data Projekte
SDIC'16 - Best Practices für Smart Data ProjekteSmart Data Innovation Lab
 
worldiety GmbH - Datenanalyse
worldiety GmbH - Datenanalyse worldiety GmbH - Datenanalyse
worldiety GmbH - Datenanalyse worldiety GmbH
 
Wirtschaftswissenschaftliche Forschung replizierbarer machen. Das Projekt EDa...
Wirtschaftswissenschaftliche Forschung replizierbarer machen. Das Projekt EDa...Wirtschaftswissenschaftliche Forschung replizierbarer machen. Das Projekt EDa...
Wirtschaftswissenschaftliche Forschung replizierbarer machen. Das Projekt EDa...svlaemi
 
Excellent reporting in ms excel
Excellent reporting in ms excelExcellent reporting in ms excel
Excellent reporting in ms excelsolutiontogo
 
MIcrosoft Self Service BI
MIcrosoft Self Service BIMIcrosoft Self Service BI
MIcrosoft Self Service BIYvette Teiken
 
OpenDMA - Daten Management Solution
OpenDMA  - Daten Management SolutionOpenDMA  - Daten Management Solution
OpenDMA - Daten Management SolutionTorsten Glunde
 
Wie baue ich ein DataWarehouse auf Basis Hadoop
Wie baue ich ein DataWarehouse auf Basis HadoopWie baue ich ein DataWarehouse auf Basis Hadoop
Wie baue ich ein DataWarehouse auf Basis HadoopGerd König
 
DOAG News 2012 - Analytische Mehrwerte mit Big Data
DOAG News 2012 - Analytische Mehrwerte mit Big DataDOAG News 2012 - Analytische Mehrwerte mit Big Data
DOAG News 2012 - Analytische Mehrwerte mit Big DataHarald Erb
 
Herausforderungen im Datenmanagement von Metadaten
Herausforderungen im Datenmanagement von MetadatenHerausforderungen im Datenmanagement von Metadaten
Herausforderungen im Datenmanagement von MetadatenETH-Bibliothek
 
TRANSCONNECT® als Integrationslayer in einem Master-Data-Management-Projekt (...
TRANSCONNECT® als Integrationslayer in einem Master-Data-Management-Projekt (...TRANSCONNECT® als Integrationslayer in einem Master-Data-Management-Projekt (...
TRANSCONNECT® als Integrationslayer in einem Master-Data-Management-Projekt (...SQL Projekt AG
 
Forschungsdaten und Forschungsdateninfrastrukturen in den Wirtschaftswissensc...
Forschungsdaten und Forschungsdateninfrastrukturen in den Wirtschaftswissensc...Forschungsdaten und Forschungsdateninfrastrukturen in den Wirtschaftswissensc...
Forschungsdaten und Forschungsdateninfrastrukturen in den Wirtschaftswissensc...svlaemi
 
Open-Source ERP und BI - Kriterien für ein effizientes Zusammenspiel -
Open-Source ERP und BI - Kriterien für ein effizientes Zusammenspiel -Open-Source ERP und BI - Kriterien für ein effizientes Zusammenspiel -
Open-Source ERP und BI - Kriterien für ein effizientes Zusammenspiel -Falk Neubert
 
SEO Campixx 2015 | ETL & BI für SEO Analysen und Reportings von Johannes Kunze
SEO Campixx 2015 | ETL & BI für SEO Analysen und Reportings von Johannes KunzeSEO Campixx 2015 | ETL & BI für SEO Analysen und Reportings von Johannes Kunze
SEO Campixx 2015 | ETL & BI für SEO Analysen und Reportings von Johannes Kunzetakevalue Consulting GmbH
 

Ähnlich wie Datenanalyse in der Praxis (20)

Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTiggesDas modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
 
Market Research Meets Business Intelligence
Market Research Meets Business IntelligenceMarket Research Meets Business Intelligence
Market Research Meets Business Intelligence
 
Analytics für Einsteiger
Analytics für EinsteigerAnalytics für Einsteiger
Analytics für Einsteiger
 
2010 09 29 13-30 michael gniffke
2010 09 29 13-30 michael gniffke2010 09 29 13-30 michael gniffke
2010 09 29 13-30 michael gniffke
 
Big Data und Business Intelligence
Big Data und Business IntelligenceBig Data und Business Intelligence
Big Data und Business Intelligence
 
Sabine Bühn, Bernd Aschauer (Aschauer IT & Business)
Sabine Bühn, Bernd Aschauer (Aschauer IT & Business)Sabine Bühn, Bernd Aschauer (Aschauer IT & Business)
Sabine Bühn, Bernd Aschauer (Aschauer IT & Business)
 
SDIC'16 - Best Practices für Smart Data Projekte
SDIC'16 - Best Practices für Smart Data ProjekteSDIC'16 - Best Practices für Smart Data Projekte
SDIC'16 - Best Practices für Smart Data Projekte
 
worldiety GmbH - Datenanalyse
worldiety GmbH - Datenanalyse worldiety GmbH - Datenanalyse
worldiety GmbH - Datenanalyse
 
Wirtschaftswissenschaftliche Forschung replizierbarer machen. Das Projekt EDa...
Wirtschaftswissenschaftliche Forschung replizierbarer machen. Das Projekt EDa...Wirtschaftswissenschaftliche Forschung replizierbarer machen. Das Projekt EDa...
Wirtschaftswissenschaftliche Forschung replizierbarer machen. Das Projekt EDa...
 
[DE] DMS: Ist-Analyse und Auswertung von Analysen | Dr. Ulrich Kampffmeyer | ...
[DE] DMS: Ist-Analyse und Auswertung von Analysen | Dr. Ulrich Kampffmeyer | ...[DE] DMS: Ist-Analyse und Auswertung von Analysen | Dr. Ulrich Kampffmeyer | ...
[DE] DMS: Ist-Analyse und Auswertung von Analysen | Dr. Ulrich Kampffmeyer | ...
 
Excellent reporting in ms excel
Excellent reporting in ms excelExcellent reporting in ms excel
Excellent reporting in ms excel
 
MIcrosoft Self Service BI
MIcrosoft Self Service BIMIcrosoft Self Service BI
MIcrosoft Self Service BI
 
OpenDMA - Daten Management Solution
OpenDMA  - Daten Management SolutionOpenDMA  - Daten Management Solution
OpenDMA - Daten Management Solution
 
Wie baue ich ein DataWarehouse auf Basis Hadoop
Wie baue ich ein DataWarehouse auf Basis HadoopWie baue ich ein DataWarehouse auf Basis Hadoop
Wie baue ich ein DataWarehouse auf Basis Hadoop
 
DOAG News 2012 - Analytische Mehrwerte mit Big Data
DOAG News 2012 - Analytische Mehrwerte mit Big DataDOAG News 2012 - Analytische Mehrwerte mit Big Data
DOAG News 2012 - Analytische Mehrwerte mit Big Data
 
Herausforderungen im Datenmanagement von Metadaten
Herausforderungen im Datenmanagement von MetadatenHerausforderungen im Datenmanagement von Metadaten
Herausforderungen im Datenmanagement von Metadaten
 
TRANSCONNECT® als Integrationslayer in einem Master-Data-Management-Projekt (...
TRANSCONNECT® als Integrationslayer in einem Master-Data-Management-Projekt (...TRANSCONNECT® als Integrationslayer in einem Master-Data-Management-Projekt (...
TRANSCONNECT® als Integrationslayer in einem Master-Data-Management-Projekt (...
 
Forschungsdaten und Forschungsdateninfrastrukturen in den Wirtschaftswissensc...
Forschungsdaten und Forschungsdateninfrastrukturen in den Wirtschaftswissensc...Forschungsdaten und Forschungsdateninfrastrukturen in den Wirtschaftswissensc...
Forschungsdaten und Forschungsdateninfrastrukturen in den Wirtschaftswissensc...
 
Open-Source ERP und BI - Kriterien für ein effizientes Zusammenspiel -
Open-Source ERP und BI - Kriterien für ein effizientes Zusammenspiel -Open-Source ERP und BI - Kriterien für ein effizientes Zusammenspiel -
Open-Source ERP und BI - Kriterien für ein effizientes Zusammenspiel -
 
SEO Campixx 2015 | ETL & BI für SEO Analysen und Reportings von Johannes Kunze
SEO Campixx 2015 | ETL & BI für SEO Analysen und Reportings von Johannes KunzeSEO Campixx 2015 | ETL & BI für SEO Analysen und Reportings von Johannes Kunze
SEO Campixx 2015 | ETL & BI für SEO Analysen und Reportings von Johannes Kunze
 

Mehr von Yvette Teiken

Angular von 0 auf 100
Angular von 0 auf 100Angular von 0 auf 100
Angular von 0 auf 100Yvette Teiken
 
BPW Vortragsabend: Praktisches Selbst- und Zeitmanagement in der Wissensgesel...
BPW Vortragsabend: Praktisches Selbst- und Zeitmanagement in der Wissensgesel...BPW Vortragsabend: Praktisches Selbst- und Zeitmanagement in der Wissensgesel...
BPW Vortragsabend: Praktisches Selbst- und Zeitmanagement in der Wissensgesel...Yvette Teiken
 
Praktisches Selbst- und Zeitmanagement in der Wissensgesellschaft
Praktisches Selbst- und Zeitmanagement in der WissensgesellschaftPraktisches Selbst- und Zeitmanagement in der Wissensgesellschaft
Praktisches Selbst- und Zeitmanagement in der WissensgesellschaftYvette Teiken
 
A common meta model for data analysis based on DSM
A common meta model for data analysis based on DSMA common meta model for data analysis based on DSM
A common meta model for data analysis based on DSMYvette Teiken
 
Using SLE for creation of data warehouses
Using SLE for creation of data warehousesUsing SLE for creation of data warehouses
Using SLE for creation of data warehousesYvette Teiken
 
Microsoft on Big Data
Microsoft on Big DataMicrosoft on Big Data
Microsoft on Big DataYvette Teiken
 
Mobile Anwendungen mit Apache Cordova
Mobile Anwendungen mit Apache CordovaMobile Anwendungen mit Apache Cordova
Mobile Anwendungen mit Apache CordovaYvette Teiken
 
Microsoft Azure in der Praxis
Microsoft Azure in der PraxisMicrosoft Azure in der Praxis
Microsoft Azure in der PraxisYvette Teiken
 
Net ug oldenburg_2015_03_intro
Net ug oldenburg_2015_03_introNet ug oldenburg_2015_03_intro
Net ug oldenburg_2015_03_introYvette Teiken
 

Mehr von Yvette Teiken (9)

Angular von 0 auf 100
Angular von 0 auf 100Angular von 0 auf 100
Angular von 0 auf 100
 
BPW Vortragsabend: Praktisches Selbst- und Zeitmanagement in der Wissensgesel...
BPW Vortragsabend: Praktisches Selbst- und Zeitmanagement in der Wissensgesel...BPW Vortragsabend: Praktisches Selbst- und Zeitmanagement in der Wissensgesel...
BPW Vortragsabend: Praktisches Selbst- und Zeitmanagement in der Wissensgesel...
 
Praktisches Selbst- und Zeitmanagement in der Wissensgesellschaft
Praktisches Selbst- und Zeitmanagement in der WissensgesellschaftPraktisches Selbst- und Zeitmanagement in der Wissensgesellschaft
Praktisches Selbst- und Zeitmanagement in der Wissensgesellschaft
 
A common meta model for data analysis based on DSM
A common meta model for data analysis based on DSMA common meta model for data analysis based on DSM
A common meta model for data analysis based on DSM
 
Using SLE for creation of data warehouses
Using SLE for creation of data warehousesUsing SLE for creation of data warehouses
Using SLE for creation of data warehouses
 
Microsoft on Big Data
Microsoft on Big DataMicrosoft on Big Data
Microsoft on Big Data
 
Mobile Anwendungen mit Apache Cordova
Mobile Anwendungen mit Apache CordovaMobile Anwendungen mit Apache Cordova
Mobile Anwendungen mit Apache Cordova
 
Microsoft Azure in der Praxis
Microsoft Azure in der PraxisMicrosoft Azure in der Praxis
Microsoft Azure in der Praxis
 
Net ug oldenburg_2015_03_intro
Net ug oldenburg_2015_03_introNet ug oldenburg_2015_03_intro
Net ug oldenburg_2015_03_intro
 

Datenanalyse in der Praxis

  • 2. Agenda  Datenanalyse am Beispiel  Datenanalyse im Enterprise Bereich
  • 3. Datenanalyse am Beispiel  Aufgabe:  Wo begegnet uns Datenanalyse ?  Sammelt Beispiele aus eurem Wissen!
  • 4. Kursziel  Einblick in Datenanalyse  Architekturen kennen  Methoden und Konzepte Kennenlernen  Gelerntes praktisch ausprobieren  Ausprägungen kennen lernen
  • 5. Agenda des Kurses  Grundlagen von Datenanalyse und Beispiele  Datenanalyse in Unternehmen  Freie Daten und Datenquellen  Datenanalyse am Beispiel mit Power *  Andere Formen der Datenanalyse
  • 8. Folienherkunft  Teile der Folien im folgenden Abschnitt stammen aus der Vorlesung Datenmanagement im Gesundheitssystem aus dem Jahr 2011ff an der Universität Oldenburg, die von mir mitentwickelt und gehalten worden ist
  • 10. Entwicklung DB Schema Dipl.-Inform. Yvette Teiken 06.03.2016
  • 11. DB Nutzung  Anfragen:  Wie viele Flaschen Cola wurden letzten Monat verkauft?  Wie hat sich der Verkauf von Rotwein im letzten Jahr entwickelt?  Wer sind unsere Top-Kunden?  Von welchem Lieferanten beziehen wir die meisten Kisten?  Probleme  Nutzung externer Quellen (Kundendatenbank, Konsumdaten,... )  Daten mit zeitlichem Bezug Dipl.-Inform. Yvette Teiken 06.03.2016
  • 13. DB Nutzung II  Anfragen  Verkaufen wir in Hannover mehr Bier als in Oldenburg?  Wie viel Cola wurde im Sommer in ganz Niedersachsen verkauft?  Mehr als Wasser?  Probleme  Anfragen über mehrere Datenbanken  Anfragen mit Geographiebezug Dipl.-Inform. Yvette Teiken 06.03.2016
  • 14. Mögliche Lösungen  Variante 1: „Verteilte DB“  Globale Anfrage über mehrere DBs Views mit Union  Nachteil: aufwändige verteilte Anfrageausführung  Variante 2: „Zentrale DB“  Änderungen über einer zentralen DB  Nachteil: lange Antwortzeiten im operativen Betrieb Dipl.-Inform. Yvette Teiken 06.03.2016
  • 15. Lösung: Data Warehouse (DWH) Dipl.-Inform. Yvette Teiken 06.03.2016
  • 16. Beispiele aus der Praxis  Wal-Mart (www.wal-mart.com)  Marktführer im amerikanischen Einzelhandel  Unternehmensweites Data Warehouse  Größe: ca. 300 TB (2003)  [Jim Gray, Computer Zeitung 17/2003]  Täglich bis zu 20.000 DW-Anfragen  Hoher Detaillierungsgrad (tägliche Auswertung von Artikelumsätzen, Lagerbestand, Kundenverhalten)  Basis für Warenkorbanalyse, Kundenklassifizierung, . . .  Ebay  Data Warehouse  6+ Petabyte mit 17 * 10^12 Datensätzen  täglich 150 * 10^9 Aktualisierungen  2 Petabyte Data Warehouse zu Analysezwecken  [North 2010], [DBMS2 2009] Dipl.-Inform. Yvette Teiken 06.03.2016
  • 17. Beispiele aus der Praxis  Bundesagentur für Arbeit  Öffentliche Verwaltung  Unternehmensweites Data Warehouse  Größe: ca. 17 TB (2010),  [Bauer Günzel, 2009]  15.000 Anwender  Integriert 80 Datenquellen und führt monatliche Aktualisierungen um Umfang von 250GB durch  Basis für Arbeitsmarktberichterstattung und Controlling  Keine Basisdatenbank fürs DWH  DWH wird direkt aus den Externen und internen Quellen geladen Dipl.-Inform. Yvette Teiken 06.03.2016
  • 18. Beispielhafte Fragestellungen  Überprüfung des Warensortiments zur Erkennung von Ladenhütern oder Verkaufsschlagern  Standortanalyse zur Einschätzung der Rentabilität von Niederlassungen  Untersuchung der Wirksamkeit von Marketing-Aktionen  Auswertung von Kundenbefragungen, Reklamationen bzgl. bestimmter Produkte etc.  Analyse des Lagerbestands  Warenkorbanalyse mit Hilfe der Kassenbons  Erstellung von Statistiken, Publikationen und Analysen sowie Controlling  Wie viele Personen waren in einem Gebiet arbeitslos?  Wie ist die prozentuale Verteilung bezogen auf alle Arbeitssuchenden?  Wurden die vordefinierten Ziele zur Vermittlungsquote Bundesweit, Landesweit oder Gebietsweit erfüllt? Dipl.-Inform. Yvette Teiken 06.03.2016
  • 19. Beispiel Gesundheitswesen  Beispiel Epidemiologisches Krebsregister Niedersachsen (EKN)  EKN ist ein DWH (Auswertungsplattform MUSTANG)  Quelldaten:  Keine direkten Quellsysteme  Explizite Datenerfassung, Meldungen über Neuerkrankungen  Beispiele für Analysefragestellungen:  Erfasste Neuerkrankungen  Erkrankungsalter  Nach Diagnosen Dipl.-Inform. Yvette Teiken 06.03.2016
  • 20. Beispiel EKN Analyse Dipl.-Inform. Yvette Teiken 06.03.2016
  • 22. Agenda  Klassische Architekturen / Referenzarchitektur  Ausprägungen in der Praxis
  • 23. Anforderungen an ein DWH  Unabhängigkeit zwischen Datenquellen und Analysesystemen, Daten im DWH sind redundant  Dauerhafte Bereitstellung integrierter Daten  Einheitliche Sicht auf bereitgestellte Daten  Mehrfachverwendung der bereitgestellten Daten  Durchführung beliebiger Anfragen  Erweiterbarkeit (insb. neue Datenquellen)  Automatisierung Dipl.-Inform. Yvette Teiken 06.03.2016
  • 24. Definition Data Warehouse (1)  Data Warehouse (DWH) =  “A subject oriented, integrated, nonvolatile, time variant collection of data organized to support management needs” [Inmon 1993]  Merkmale:  Themenorientierung  Integration und Vereinheitlichung  Dauerhaftigkeit, Stabilität  Zeitorientierung der Informationen  Analyse und Entscheidungsunterstützung für das Management Dipl.-Inform. Yvette Teiken 06.03.2016
  • 25. Charakteristika von DWH  Themenorientierung (subject-oriented):  Zweck des Systems ist nicht Erfüllung einer Aufgabe (z.B. Personaldatenverwaltung), sondern Modellierung eines spezifischen Anwendungsziels (Produkte, Kunden)  Integrierte Datenbasis (integrated):  Verarbeitung von Daten aus mehreren verschiedenen Datenquellen (intern und extern)  Nicht-flüchtige Datenbasis (non-volatile):  stabile, persistente Datenbasis  Daten im DWH werden nicht mehr entfernt oder geändert  Zeitbezogene Daten (time-variant):  Speicherung über längeren Zeitraum  Vergleich der Daten über Zeit möglich (Zeitreihenanalyse) Dipl.-Inform. Yvette Teiken 06.03.2016
  • 26. Definition Data Warehouse (2)  Data Warehouse (DWH) =  “Physische Datenbank, die eine integrierte Sicht auf (beliebige) Daten darstellt. Im Unterschied zur Basisdatenbank, steht der Auswertungsaspekt (analyseorientiertes Schema) im Mittelpunkt, der sich oft in einem multidimensionalen Schema widerspiegelt. Häufig, aber nicht notwendigerweise findet eine Historisierung der Daten statt, indem in periodischen Abständen Daten hinzugeladen, aber nicht modifiziert werden.” [Bauer Günzel 2009]  Wichtige Unterscheidung zu Inmon:  Es fehlt „to support management needs“  Z.B. Datenanalyse von Patientendaten fördert Behandlungswissen, nicht Management Dipl.-Inform. Yvette Teiken 06.03.2016
  • 27. Weitere Begriffe  Data Warehousing  „Data Warehousing ist kein Produkt, sondern der Prozess der Zusammenführung und des Managements von Daten aus verschiedenen Quellen mit dem Zweck, eine einheitliche, detaillierte Sicht auf den einzelnen Geschäftsbereich oder das gesamte Unternehmen zu erhalten.“[Jung, Winter 2000]  „alle Schritte des Datenbeschaffungsprozesses, das Speichern und Analysieren der Daten“ [Bauer Günzel 2009]  Data Mart  externe (Teil-)Sicht auf das Data Warehouse  durch Kopieren  anwendungsbereichsspezifisch  OLAP (Online Analytical Processing) (Paradigma)  explorative, interaktive Analyse auf Basis des konzeptuellen Datenmodells  Business Intelligence  …. Dipl.-Inform. Yvette Teiken 06.03.2016
  • 28. Referenzarchtiektur nach [Bauer Günzel 2001] 06.03.2016Dipl.-Inform. Yvette Teiken Daten- quelle(n) Arbeits- bereich Basis- datenbank Data Warehouse Extraktion Laden Laden Analyse Transformation Monitor Data-Warehouse- Manager Metadaten- Manager Repository Datenfluss Kontrollfluss Data-Warehouse-System Bereich der Datenbeschaffung
  • 30. Referenzarchitektur  Jede Datenanalyse basiert auf dieser Architektur  Selten vollständig  Techniken und Konzepte sind identisch, egal  EDW, PDW, Analytisches Data Warehouse  Big Data  Desktop Analyse
  • 31. Beispiel aus der Praxis I  Krankenkasse  Besonderheit:  Gesundheitsrelevante Daten  Fachbereich
  • 32. Beispiel aus der Praxis II  Handelskonzern  Besonderheit: Lagerlogistik und Bestellwesen
  • 33. Beispiel aus der Praxis III  Krankenkasse  Besonderheit: Spezialauswertung für Leihprozesse
  • 34. Beispiel aus der Praxis IV  Amazon Redshift  http://aws.amazon.com/de/redshift/  Frage:  Was wird angeboten?  Wobei hilft es?  Welche Probleme löst es nicht
  • 37. Self Service BI  Idee: Nutzer ohne große BI Infrastruktur Daten Analysieren zu lassen Extrahieren Säubern Transformieren Auswerten Teilen
  • 38. Power BI  Neue Strategie für Datenanalyse bei Microsoft  Grundlage: Microsoft Excel  Bestandteile  Power Query (Extract und Transform)  Power Pivot (Transformieren)  Powerview (Auswerten)  Power Map (Geografische Analyse)  Vorteil  In vielen Firmen verfügbar  Nutzer sind vertraut mit Verwendung  Lässt sich in Infrastruktur integrieren
  • 39. Power Query I  Laden von verschiedenen Datenquellen  Interaktive und wiederholbare Anfragen erstellen
  • 46. Laden aus Api: XML http://daten.berlin.de/datensaetze/liste-der-badestellen-badegew%C3%A4sserqualit%C3%A4t
  • 48. Drill Down zur Tabelle
  • 54. Große Übung  Ziel: Analyse der Straßenunfälle in UK  Ausfälligkeiten  Tage  Alter  Straßen  Tageszeiten  Beispiel stammt von Chris Webb (http://blog.crossjoin.co.uk/) Einreichung zum PowerBi Wettbewerb. Demo von ihm: https://www.youtube.com/watch?v=War1pSs2LAM
  • 55. Vorgehen  Extrahieren: Daten laden und dem Modell hinzufügen  Säubern: Nicht notwendig  Transformieren  Zeit Hierarchie  Dimensionstabellen verknüpfen  Auswerten  Interaktive Diagramme erstellen Extrahieren Säubern Transformieren Auswerten Teilen
  • 56. Datenintegration  Lade Daten mittels Ordner  Ins Datenmodell laden  Verknüpfen  Ein Jahr sollte zunächst reichen
  • 60. Aggregation  Verdichten oder detaillieren Daten  Beliebtes Beispiel Zeit Jahr Monat Tag
  • 62. Dimensionstabelle Zeit  Zeit zum Datenmodell hinzufügen  Verknüpfung mit Datensätzen auf niedrigster Ebene  Erstellung von Hierarchien
  • 64. Transformieren  Aufgaben  Daten in das Ziel Format übertragen  Daten vereinheitlichen (Geschlecht)  Daten auflösen
  • 66. Dimensionstabellen II  Müssen zum Datenmodell hinzugefügt werden  Müssen verknüpft werden  IDs ausblenden  Dimensionen nach Analysezweck auswählen
  • 69. Unfälle nach Jahr als Tabelle
  • 78. Woher kommen Daten  Offene Datenquellen (Open data)  Non Open Data
  • 79. Open (Government) Data  „Offene Daten sind Daten, die von jedem/r frei benutzt, weiterverwendet und geteilt werden können – die einzige Einschränkung betrifft die Verpflichtung auf die Nennung des Urhebers“
  • 80. 10 Prinzipien  Vollständigkeit  Primärquelle  Zeitliche Nähe  Leichter Zugang  Maschinenlesbarkeit  Diskriminierungsfreiheit  Verwendung offener Standards  Offene Lizenzierung  Dauerhaftigkeit  Kostenfreiheit http://sunlightfoundation.com/policy/documents/ten-open-data-principles/
  • 81. Warum ?  Neelie Kroes  EU Kommissarin für digitale Agenda  „Geben Sie ihre Daten frei, um Arbeitsplätze und Wachstum zu schaffen“
  • 82. Nutzen  Wirtschaftlicher Nutzen  Bürger-Nutzen  Transparenz  Verwaltung
  • 83. Arten von Daten  1. Umweltdaten (Feinstaub, CO2, Pollen) 2. Märkte (Wochen-, Floh-, Weihnachtsmärkte) 3. Events (Straßenfeste, Konzerte, Lange Nacht der …, Sportereignisse) 4. Entsorgung (Termin in meiner Straße, Recyclinghöfe, Containerstandorte, Sondermüll) 5. Infrastruktur (Radwege, Toiletten, Briefkästen, Geldautomaten, Telefone) 6. Verkehr (Baustellen, Staus, Sperrungen) 7. Nahverkehr (Fahrpläne, Verspätungen, Zugausfälle, Sonderfahrten) 8. Öffnungszeiten (Bibliotheken, Museen, Ausstellungen) 9. Verwaltung (Formulare, Zuständigkeiten, Ämter, Öffnungszeiten) 10. Verbraucherberatung, Schuldnerberatung 11. Familie (Horte, Kindergärten) 12. Bildung (Schulen, Volkshochschulen, Hochschulen und Unis) 13. Wohnen (Wohngeld, Mietspiegel, Immobilien, Grundstückspreise) 14. Gesundheit (Krankenhäuser, Apotheken, Notdienst, Spezialisten, Beratungsstellen, Blutspende) 15. Haustiere (Tierärzte, Tierheim, Tierpflege) 16. Kontrolle (Badegewässer, Lebensmittel, Gaststätten, Preise) 17. Recht (Gesetze, Vorschriften, Beratung, Schlichter, Gutachter) 18. Polizeiticker (aktuelle Vorfälle, Fahndung, Kriminalitätsatlas) 19. Stadtplanung (Flächennutzungsplan, Bauvorhaben, Verkehr, Flughäfen) 20. Bevölkerung (Zahl, regionale Verteilung, Demografie, Kaufkraft, Beschäftigung/Arbeitslosigkeit, Kinder) 21. Finanzdaten (Budgets, Aufträge, Verträge)
  • 86. Open Data Berlin  885 Datensätze in 22 Kategorien  Beispiele  Finanzamt Atlas Berlin  Straßen und Volksfester  Liste der Badestellen  Denkmalliste  Arbeitslosenquote
  • 87. Weltbank  Idee: Globale Zusammenhänge verstehen
  • 91. (Inoffizieller) Metakatalog für Open Data in Deutschland https://offenedaten.de/
  • 93. 1 Stern  Daten sind verfügbar, egal in welchem Format, aber nutzt offene Lizenz
  • 94. 1 Stern - Vorteile  Als Datenkonsument  Daten können angesehen werden  Drucken  Lokal speicherbar  Ändern wie man will  Man kann es jedem teilen  Als Daten Bereitsteller  Einfach zu veröffentlichen  Man muss die Verwendung nicht erläutern
  • 95. 2 Sterne  Daten sind als strukturierte Daten verfügbar  Z. B. Excel statt einem pdf
  • 96. 2 Sterne Vorteile  Als Datenkonsument  Mann kann alles wie unter 1 Stern und  Daten können direkt mit Software verarbeitet werden (Berechnungen, Visualisierungen)  Es kann zu anderen Formaten exportiert werden  Als Daten Bereitsteller  Publizieren ist immer noch einfach
  • 97. 3 Sterne  Es werden urheberrechtliche nicht geschützte Formate verwendet  CSV statt Excel
  • 98. 3 Sterne Vorteile  Als Datenkonsument  Alles was mit 2 Sterne geht  Daten können auf beliebige Weise manipuliert werden  Kann mit beliebiger Software manipuliert werden  Als Daten Bereitsteller  Es werden ggf. Plug-Ins zum Publizieren benötigt  Immer noch relativ einfache Bereitstellung
  • 99. 4 Sterne  Verwende Uris um Daten zugreifbar zu machen, damit Leute das verweisen können
  • 100. 4 Sterne Vorteile  Als Datenkonsument  Daten können verlinked werden  Man kann es Bookmarken  Teile der Daten wieder verwenden  Kann Daten mit anderen Daten kombinieren  Als Daten Bereitsteller  Granularere Kontrolle über Daten  Andere Bereitsteller können die Daten verlinken
  • 101. 5 Sterne  Verlinkte Daten zu anderen und liefere Kontext
  • 102. 5 Sterne Vorteile  Als Datenkonsument  Mehr verknüpfte Daten finden wenn man Daten verwendet  Man muss mit kaputten Links umgehen  Sicherheitsrisiko wenn Daten von fremden Quellen importiert werden  Als Daten Bereitsteller  Daten sind entdeckbar  Wert der Daten erhöht sich  Man profitiert genauso wie der Konsument
  • 103. Übung zu Open Data  Ziel: Überblick über offene Datenquellen zu bekommen  Fragen  Welche Art von Daten werden bereitgestellt?  Welche Daten findet ihr besonders interessant und warum?  Wie granular sind die Daten?  Wie sind die zugänglich?  Bewertung der Datenquelle  Präsentation im Plenum  Gruppen  Global: Weltbank.org  UK: Data.gov  Deutschland: govdata.de  EU: http://opendata.eu/
  • 105. Andere Datenquellen  Unternehmensdaten  Internet Dienste  Haben meistens eine API  Registrieren  Zugriff über Web Schnittstellen
  • 107. Demo Facebook API  me  erminasde/posts  ewebaskets/posts
  • 110. Verabeitung der Daten mit Hadoop
  • 112.
  • 116. Twitter: Mehr lernen  http://blogs.ischool.berkeley.edu/i290-abdt- s12/
  • 117. fitbit
  • 121.
  • 122.
  • 123.
  • 124.
  • 126. Agenda  Überblick  Was ist Hadoop  Hive  Map Reduce  Pig
  • 127. Die 3 Vs Quelle: http://www.datasciencecentral.com/forum/topics/the-3vs-that-define-big-data
  • 128. Was ist Big Data ?
  • 129. Was ist Big Data?
  • 130. Warum Big Data –Neue Zahlen  2008: Google processes 20 PB a day  2009: Facebook has 2.5 PB user data + 15 TB/day  2009: eBay has 6.5 PB user data + 50 TB/day  2011: Yahoo! has 180-200 PB of data  2012: Facebook ingests 500 TB/day
  • 131. Datenspeicherung  Data storage is not trivial  Data volumes are massive  Reliably storing PBs of data is challenging  Disk/hardware/network failures  Probability of failure event increases with number ofmachines  For example:  1000 hosts, each with 10 disks  a disk lasts 3 year  how many failures per day?
  • 132. Ursprünge  Hadoop is an open-source implementation based on GFS and MapReduce from Google Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung. (2003)  The Google File System Jeffrey Dean and Sanjay Ghemawat. (2004)  MapReduce: Simplified Data Processing on Large Clusters OSDI 2004
  • 134. Eigeschaften  A distributed file system  Redundant storage  Designed to reliably store data using commodity hardware  Designed to expect hardware failures  Intended for large files  Designed for batch inserts  The Hadoop Distributed File System
  • 135. HDFS - files and blocks  Files are stored as a collection of blocks  Blocks are 64 MB chunks of a file (configurable)  Blocks are replicated on 3 nodes (configurable)  The NameNode (NN) manages metadata about files and blocks  The SecondaryNameNode (SNN) holds a backup of the NN data  DataNodes (DN) store and serve blocks
  • 136. Replication  Multiple copies of a block are stored  Replication strategy:  Copy #1 on another node on same rack  Copy #2 on another node on different rack
  • 139. Ausfall Datenknoten  DNs check in with the NN to report health  Upon failure NN orders DNs to replicate under-replicated blocks
  • 141. Name Node  Tool for browng HDFS
  • 143. Hive
  • 144. Distributed Storage (HDFS) Query (Hive) Distributed Processing (MapReduce) ODBC Legend Red = Core Hadoop Blue = Data processing Purple = Microsoft integration points and value adds Orange = Data Movement Green = Packages HDInsight / Hadoop Eco-System
  • 147. Verabeitung der Daten mit Hadoop
  • 152. Verarbeitung der Daten mit Hadoop
  • 154. Zusammenfassung  Coole Vorlesung zum Weiter machen http://blogs.ischool.berkeley.edu/i290-abdt-s12/  Niemand in Deutschland hat Big Data!

Hinweis der Redaktion

  1. 06.03.2016
  2. 06.03.2016
  3. 06.03.2016
  4. 06.03.2016
  5. 06.03.2016
  6. Datenquelle: 60 Protokolldateien
  7. Wordcount anhand Liste von Schlüsselwörtern