Einführung Datenanalyse mit Pandas [data2day]

Einführung Datenanalyse mit Pandas
Alexander C. S. Hendorf
@hendorf
Karlsruhe, Germany

Königsweg GmbH
Königsweg verbindet High-Tech Startups und die Industrie
EuroPython Organisator + Programm Chair
mongoDB master 2016, MUG Leader
Speaker mongoDB days, EuroPython, PyData…
@hendorf

Herkunft und Ziele
-Open Source Python Library
-Praktische 'real-world'-Datenanalyse - schnell, effizient & einfach
-Lückenloser Datenanalyse Workflow (ohne Wechsel in z.B R)
-2008 begonnen von Wes McKinney,  
nun PyData Stack bei Continuum Analytics ("Anaconda")
-Stabiles Projekt mit regelmäßigen Updates
-https://github.com/pydata/pandas

Haupt-Funktionalitäten
-Datenaustausch via CSV, Excel, JSON, SQL, SAS, clipboard, HDF5,…
-Datenbereinigung
-Daten umformen, zusammenführen (joins & merge) & pivoting
-Daten Visualisierung
-Integration in Jupiter (iPython) Notebooks
-Datenbank-ähnliche Operationen
-Performant

Heute
Teil 1:
Grundfunktionalitäten von Pandas
Teil 2:
Zeitreihen-Analyse mit Pandas
Git mit allen Code-Beispielen unter:
https://github.com/Koenigsweg/data2day-2016.git

2014-08-21T22:50:00,12.0
2014-08-17T13:20:00,16.0
2014-08-06T01:20:00,14.0
2014-09-27T06:50:00,11.0
2014-08-25T21:50:00,13.0
2014-08-14T05:20:00,13.0
2014-09-14T05:20:00,16.0
2014-08-03T02:50:00,21.0
2014-09-29T03:00:00,13
2014-09-06T08:20:00,16.0
2014-08-19T07:20:00,13.0
2014-09-27T22:50:00,10.0
2014-08-28T08:20:00,12.0
2014-08-17T01:00:00,14
2014-09-27T14:00:00,17
2014-09-10T18:00:00,18
2014-09-22T23:00:00,8
2014-09-20T03:00:00,9
2014-08-29T09:50:00,16.0
2014-08-16T01:50:00,13.0
2014-08-28T22:00:00,14

Re: I/O und Anzeige
-Konvention import pandas as pd
-Beispiel pd.read_csv()
-Hohe Anpassungsfähigkeit mittels über 40 optionalen
Parametern (delimiter, header, dtype, parse_dates,…)
-Datenvorschau mit .head(Zeilen) und .tail(Zeilen)

ax = df[:100].plot()
ax.axhline(16, color='r', linestyle='-')
df.plot(kind='bar')

Visualisieren
-matplotlib (http://matplotlib.org) integriert, .plot()
-anpass- und erweiterbar, plot() gibt ax zurück
-Balken- (bar), Flächen- (area), Scatter-, Boxplots u.a.
-Modernere Alternativen:  
Bokeh (http://bokeh.pydata.org/en/latest/) 
Seaborn (https://stanford.edu/~mwaskom/software/seaborn/index.html)

Aufbau / Struktur
pd.Series
Index
pd.DataFrame
Daten
1
2
3
4
5
6
7
8
9
1
2
3
4
5
6
7
8
9
1
2
3
4
5
6
7
8
9
1
2
3
4
5
6
7
8
9
1
2
3
4
5
6
7
8
9
1
2
3
4
5
6
7
8
9
1
2
3
4
5
6
7
8
9
1
2
3
4
5
6
7
8
9
1
2
3
4
5
6
7
8
9
1
2
3
4
5
6
7
8
9
…

Aufbau / Struktur: DataSeries
-eindimensionale, bezeichnete Reihe, die jeden Datentyp enthalten kann
-Die Bezeichnung der Reihe heißt hier idR index
-automatische Erstellung von index, wenn nicht vorhanden
-Ein Daten Typ (nicht gemischt),  
aber dynamische Zuweisung/Umwandlung wie in Python üblich 
bzw. auch explizit setzbar

einfache Serie, automatische Typenerkennung, Index automatisch
einfache Serie, automatische Typenerkennung, Index automatisch
einfache Serie, Typ vorgegeben, Index automatisch
einfache Serie, Typ vorgegeben, Index vorgegeben

einfache Serie, expliziter Typ & Index
Zugriff über Index / Bezeichnung (label)
Zugriff über Position im Index
Zugriff auf mehrere Elemente über Bezeichnung im Index
Zugriff auf mehrere Elemente über Bereich im Index
Zugriff auf mehrere Elemente über Position im Index
Zugriff über Boolischen Index via lambda

.loc()
Index Label
.iloc()
Index Position
.ix()
Index Vermutung

.name
(Spalten-) Namen
.sample()
Stichprobe

Auswahl
-Slicing
-Boolean Indexing
series[x], series[[x, y]]
series[2], series[[2, 3]], series[2:3]
series.ix() / .iloc() / .loc()
series.sample()

Aufbau / Struktur: DataFrame
-zweidimensionale, bezeichnete Daten Struktur z.B. aus
-DataSeries
-2-D numpy.ndarray
-anderen DataFrames
-automatische Erstellung von index, wenn nicht vorhanden

Aufbau / Struktur Index
-Index
-automatisch, wenn keine Vorgabe (Position)
-kann nachträglich ge- oder ersetzt werden
-Typen: Position, Zeitstempel, Zeitbereiche, Labels,…
-eine oder mehrere Dimensionen
-darf Wert mehrfach enthalten (NOT UNIQUE!)

Praxisbeispiele
-Mit Series arbeiten / rechnen
-neue Series erstelle und hinzufügen
-mit null Werten arbeiten / entfernen
-direkte Methodenaufrufe Series/ DataFrames

Series/DataFrames verändern
-Funktionen werden nicht auf Series oder DataFrame angewendet, 
sondern geben nur das Ergebnis als S/DF zurück
-mit Parameter inplace können Änderungen auf der Serie / DataFrame
direkt angewendet werden

NaN Werte & Entfernen
-NaN wird für null Werte verwendet
-series.describe() ignoriert NaN
-NaNs:
-entfernen drop()
-ersetzen mit Standardwerten
- forward- oder backwards-fill, interpolieren
- Series können ebenfalls mit drop() aus dem DF entfernt werden

Daten Aggregation
-describe()
-groupby()
-groupby([]) & unstack()
-mean(), sum(), median(),…

Ende Teil 1
-DataSeries & DataFrame
-I/O
-Einfache Datenanalyse & Aggregation
-Indexe
-Visualisierung
-Interaktion

Zusammenfassung
-DataFrames
-Index
-support of non-unique (!)

Jahr
12 Monate
Februar
90% von März
31 31
31 31 31
31 31
30
30
30 30
28

Roman year used to start in March and had 10 months
2 months there was "no" month
solar | topical year
quick & funny explanation: https://www.youtube.com/watch?v=AgKaHTh-_Gs

Zeitreihen
-TimeSeriesIndex
-pd.to_datetime() ! US datumsfreundlich
-Datenaggregation Beispiele

Resampling
-H hourly frequency
-T minutely frequency
-S secondly frequency
-L milliseonds
-U microseconds
-N nanoseconds
-D calendar day frequency
-W weekly frequency
-M month end frequency
-Q quarter end frequency
-A year end frequency
- B business day frequency
- C custom business day frequency (experimental)
- BM business month end frequency
- CBM custom business month end frequency
- MS month start frequency
- BMS business month start frequency
- CBMS custom business month start frequency
- BQ business quarter endfrequency
- QS quarter start frequency
- BQS business quarter start frequency
- BA business year end frequency
- AS year start frequency
- BAS business year start frequency
- BH business hour frequency

Bonus: statsmodels
is a Python module that allows users to explore data, estimate statistical models,
and perform statistical tests

Some sales data of a single product

Attributions
Panda Picture
By Ailuropoda at en.wikipedia (Transferred from en.wikipedia) [GFDL (http://www.gnu.org/copyleft/fdl.html), CC-BY-SA-3.0 (http://creativecommons.org/licenses/by-sa/
3.0/) or CC BY-SA 2.5-2.0-1.0 (http://creativecommons.org/licenses/by-sa/2.5-2.0-1.0)], from Wikimedia Commons

ah@koenigsweg.com
@hendorf
Code-Beispiele
https://github.com/Koenigsweg/data2day-2016.git

Einführung Datenanalyse mit Pandas [data2day]

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie Einführung Datenanalyse mit Pandas [data2day]

Ähnlich wie Einführung Datenanalyse mit Pandas [data2day] (20)

Mehr von Alexander Hendorf

Mehr von Alexander Hendorf (12)

Einführung Datenanalyse mit Pandas [data2day]