SlideShare ist ein Scribd-Unternehmen logo
Das Unvorhersehbare vorhersagen:
Representation Learning von Zeitreihen
Marisa Mohr Köln, 26. März 2019
M.Sc. Mathematik
Machine Learning Engineer @inovex
• Machine Perception & Artificial Intelligence
Doktorandin @Universität zu Lübeck
• Institut für Informationssysteme, Prof. Dr. Ralf Möller
• “Time-Series Representation Learning”
Marisa Mohr
2
http://www.clker.com/clipart-27380.html
Repräsentationen von Zeitreihen
Dynamisches Auf und Ab
3
Makridakis 4 (M4)-Wettbewerb
1.1.2018 – 31.5.2018
› 100.000 reale Zeitreihen
› „Wie lässt sich die Prognosegenauigkeit für Zeitreihen verbessern
und
für jeden Fall die am besten geeigneten Methoden ermitteln?“
4
Makridakis 4 (M4)-Wettbewerb
1.1.2018 – 31.5.2018
Ergebnisse:
› 12/17 genauesten Methoden: Kombinationen von überwiegend
statistischen Ansätzen
› 1. Platz: Hybrider-Ansatz (sowohl Statistik als auch ML)
› 2. Platz: Kombination aus 7 statistischen Methoden und 1 ML-Methode
› Die 6 reinen ML-Methoden waren alle schlecht
› Keiner von ihnen ist genauer als der statistische Benchmark und
› nur einer ist genauer als Naive
5
Deep Learning
Ein kritischer Blick
Tiefe künstliche neuronale Netze leisten unbestritten Fantastisches! Aber
• Daten-hungrig
• Beschränkter Transfer: Häufiges Versagen bei Extrapolation
• Tiefe Architektur, aber kein tiefes Daten-Verständnis
6
Interesse eines „besseren“ Representation/Feature
Learning – vor/innerhalb der eigentlichen Modellierung
Informations-
theoretischer
Ansatz
• Wie “komplex” ist eine Zeitreihe?
• Nutze das „Auf und Ab“
• Inhomogenität, Unreinheit
• Unsicherheit, Unvorhersagbarkeit
7
Deep Dive
8
Symbolisierung
9
• Unterteilung des Datenbereichs
• Schwellenwertüberschreitungsmethode
• Ordnungsrelation
d
c
b
a
Sequenz: acaddcaaaccbbccccdaca
Klassisch: Ordinal:
Sequenz:
Ordinales Muster
10
!(#) = (&, (, ), *, +, ,)
-./0 > -./2 > -./3 > -./4 > -./5 > -./6
Zeitpunkt t = 6
1 2 3 4 5 6
Ordinales Muster der Ordnung !
11
Zeitpunkt t = 6Ordnung d = 5
1 2 3 4 5 6
'()* > '(), > '()- > '(). > '()/ > '()0
12(4) = 67(8) = (9, ;, <, 7, =, >)
Symbolisierung von Zeitreihen
12
Klassisch: Ordinal:
Symbolisierungen von Zeitreihen, und nun?
Sequenzen: (2,0,1), (1,2,0), (2,0,1),….
d
c
b
a
Sequenz: acaddcaaaccbbccccdaca
Benötigte Anzahl an Bits, um eine Nachricht anzuzeigen oder zu übermitteln
Wie bestimmt man Komplexität?
Gleichverteilung
13
c o m p u t e r
1
1
1 1
1
1 1
0
0
0 0 0 0
0
! Zeichen, Gleichverteilung: "# =
%
&
p = (
1
8
,
1
8
,
1
8
,
1
8
,
1
8
,
1
8
,
1
8
,
1
8
)
Höhe
log !
log ! = log
1
"
= log 1 − log " = − log "
› Nicht jedes Zeichen bzw. jede Nachricht ist gleichverteilt
› Sequenz: acaddcaaaccbbccccdaca
Wie bestimmt man Komplexität?
Keine Gleichverteilung
14
b d
1
1
1
0
0
0
p = (
2
21
,
3
21
,
7
21
,
9
21
)
a
c
+ Zeichen, keine Gleichverteilung: ,- ≠ ,/
Nachrich
t
Code Länge Erwartet
e Länge
b 111 3 0,286
d 110 3 0,429
a 10 2 0,667
c 0 1 0,429
Erwartete Länge 1,811
Entropie
15
− "
#$%
&
'# log '#
log + = − log '
Gleichverteilung Keine Gleichverteilung
'%, '., … , '& ist ein stochastischer Vektor, d.h.,
• '%, '., … '& ∈ [0,1] und
• ∑'# = 1
Nichts Neues: Shannon (1948)
= Shannon-Entropie ordinaler Muster
wobei ! " die relative Häufigkeit des ordinalen Musters " in der
Zeitreihe ist.
16
Permutationsentropie (PE)
− $
%∈'
! " log ! " ,
Beispiel
17
!"# = −
4
5
log
4
5
−
1
5
log
1
5
≈ 0,7219
• 4 Paare mit 23 < 235#, d.h., 6#
78
= (0,1)
• 1 Paare mit 23 > 235#, d.h., 6#
78
= (1,0)
1 2 3 4 5 6
PE im Deep Learning
Nur ein weiteres beschreibendes Maß?
• Strukturen von Daten lernen
• PE „natürliches, intrinsisches“ Maß basierend auf Informationen
• Auf und Ab des erzeugenden Systems
• Konzeptionelles Maß
• „Funktioniert“ auch bei chaotischen Systemen
18
Anwendungen
19
Datensätze
20
Theoretische
Systeme
• Lorenz- und
Rössler System
• Henon-Map
• Logistische
Gleichung
• Bernoulli-Shift
• Brown’sche
Bewegung
• Gauß’sches
Rauschen
• …
Signale
• Sprachsignale
• Chaotische
Signale
• …
Physikalische
Systeme
• Opto-
elektronische
Oszillatoren
• Viele Arten
von Lasern
• …
Medizin
• epileptische
Aktivität in
EEG-Daten
• Lokale
Feldpotenziale
• EKG-Daten
• …
Wirtschaft und
Umwelt
• Rekrutierung
von Fischen
• Population
kanadischer
Luchs
• Sedimentdaten
• Anleihen-
Indizes und
Aktien
• Dow-Jones-
Subindizes
• …
Quelle: Keller, K., Mangold, T., Stolz, I., Werner, J.: Permutation Entropy: New Ideas and Challenges Entropy 19(3) (2017)
Klassifikation von EEG Daten
21
Daten:
• EEG-Datenbank
• Länge von 23.6s
• Sampling Rate 173.61 Hz.
• 5 Gruppen, je 100 Zeitreihen
Gesund? Wie gemessen? Zustand
A ja Oberfläche Offene Augen
B ja Oberfläche Geschlossene Augen
C nein Intrakraniell, epileptogene Zone Anfallsfreie Zeit
D nein Intrakraniell, gegenüberliegende
Gehirnhälfte
Anfallsfreie Zeit
E nein intrakraniell Anfallszeit
Quelle: Keller, K., Mangold, T., Stolz, I., Werner, J.: Permutation Entropy: New Ideas and Challenges Entropy 19(3) (2017)
Klassifikation von EEG Daten
22
Quelle: Keller, K., Mangold, T., Stolz, I., Werner, J.: Permutation Entropy: New Ideas and Challenges Entropy 19(3) (2017)
Klassifikation von EEG Daten
23
Ziel: Klassifikation von EEG-Daten
zur Epilepsie-Detektion unter
Verwendung von PE (sowie
Erweiterungen)
Modell: Random Forest
Accuracy: bis zu 71,8%
https://www.cmsattler.de/diktieren-spracherkennung-und-sprache-4-0/ , http://truth-and-beauty.net/projects/emoto, https://medium.com/@5agado/building-a-personal-virtual-
assistant-step-1-your-cv-as-a-chatbot-a4381fce6983
Weitere sequentielle Daten
24
Vielen Dank
Marisa Mohr
Machine Learning Engineer
inovex GmbH
Friesenweg 4 / Haus 13
22763 Hamburg
marisa.mohr@inovex.de
01523 3181 259

Weitere ähnliche Inhalte

Mehr von inovex GmbH

Prometheus on Kubernetes
Prometheus on KubernetesPrometheus on Kubernetes
Prometheus on Kubernetes
inovex GmbH
 
Deep Learning for Recommender Systems
Deep Learning for Recommender SystemsDeep Learning for Recommender Systems
Deep Learning for Recommender Systems
inovex GmbH
 
Azure IoT Edge
Azure IoT EdgeAzure IoT Edge
Azure IoT Edge
inovex GmbH
 
Talk to me – Chatbots und digitale Assistenten
Talk to me – Chatbots und digitale AssistentenTalk to me – Chatbots und digitale Assistenten
Talk to me – Chatbots und digitale Assistenten
inovex GmbH
 
Künstlich intelligent?
Künstlich intelligent?Künstlich intelligent?
Künstlich intelligent?
inovex GmbH
 
Dev + Ops = Go
Dev + Ops = GoDev + Ops = Go
Dev + Ops = Go
inovex GmbH
 
Das Android Open Source Project
Das Android Open Source ProjectDas Android Open Source Project
Das Android Open Source Project
inovex GmbH
 
Machine Learning Interpretability
Machine Learning InterpretabilityMachine Learning Interpretability
Machine Learning Interpretability
inovex GmbH
 
Performance evaluation of GANs in a semisupervised OCR use case
Performance evaluation of GANs in a semisupervised OCR use casePerformance evaluation of GANs in a semisupervised OCR use case
Performance evaluation of GANs in a semisupervised OCR use case
inovex GmbH
 
People & Products – Lessons learned from the daily IT madness
People & Products – Lessons learned from the daily IT madnessPeople & Products – Lessons learned from the daily IT madness
People & Products – Lessons learned from the daily IT madness
inovex GmbH
 
Infrastructure as (real) Code – Manage your K8s resources with Pulumi
Infrastructure as (real) Code – Manage your K8s resources with PulumiInfrastructure as (real) Code – Manage your K8s resources with Pulumi
Infrastructure as (real) Code – Manage your K8s resources with Pulumi
inovex GmbH
 
Remote First – Der Arbeitsplatz in der Cloud
Remote First – Der Arbeitsplatz in der CloudRemote First – Der Arbeitsplatz in der Cloud
Remote First – Der Arbeitsplatz in der Cloud
inovex GmbH
 
Data Science und Machine Learning im Kubernetes-Ökosystem
Data Science und Machine Learning im Kubernetes-ÖkosystemData Science und Machine Learning im Kubernetes-Ökosystem
Data Science und Machine Learning im Kubernetes-Ökosystem
inovex GmbH
 
TTD Tatort-driven Development
TTD Tatort-driven DevelopmentTTD Tatort-driven Development
TTD Tatort-driven Development
inovex GmbH
 
Down the event-driven road: Experiences of integrating streaming into analyti...
Down the event-driven road: Experiences of integrating streaming into analyti...Down the event-driven road: Experiences of integrating streaming into analyti...
Down the event-driven road: Experiences of integrating streaming into analyti...
inovex GmbH
 
React mit TypeScript – eine glückliche Ehe
React mit TypeScript – eine glückliche EheReact mit TypeScript – eine glückliche Ehe
React mit TypeScript – eine glückliche Ehe
inovex GmbH
 
Manage your bare-metal infrastructure with a CI/CD-driven approach
Manage your bare-metal infrastructure with a CI/CD-driven approachManage your bare-metal infrastructure with a CI/CD-driven approach
Manage your bare-metal infrastructure with a CI/CD-driven approach
inovex GmbH
 
Connected Cooking powered by MQTT
Connected Cooking powered by MQTTConnected Cooking powered by MQTT
Connected Cooking powered by MQTT
inovex GmbH
 
MQTT in the Enterprise – How to successfully run an MQTT Message Broker
MQTT in the Enterprise – How to successfully run an MQTT Message BrokerMQTT in the Enterprise – How to successfully run an MQTT Message Broker
MQTT in the Enterprise – How to successfully run an MQTT Message Broker
inovex GmbH
 
Let's talk about Microservices Migration!
Let's talk about Microservices Migration!Let's talk about Microservices Migration!
Let's talk about Microservices Migration!
inovex GmbH
 

Mehr von inovex GmbH (20)

Prometheus on Kubernetes
Prometheus on KubernetesPrometheus on Kubernetes
Prometheus on Kubernetes
 
Deep Learning for Recommender Systems
Deep Learning for Recommender SystemsDeep Learning for Recommender Systems
Deep Learning for Recommender Systems
 
Azure IoT Edge
Azure IoT EdgeAzure IoT Edge
Azure IoT Edge
 
Talk to me – Chatbots und digitale Assistenten
Talk to me – Chatbots und digitale AssistentenTalk to me – Chatbots und digitale Assistenten
Talk to me – Chatbots und digitale Assistenten
 
Künstlich intelligent?
Künstlich intelligent?Künstlich intelligent?
Künstlich intelligent?
 
Dev + Ops = Go
Dev + Ops = GoDev + Ops = Go
Dev + Ops = Go
 
Das Android Open Source Project
Das Android Open Source ProjectDas Android Open Source Project
Das Android Open Source Project
 
Machine Learning Interpretability
Machine Learning InterpretabilityMachine Learning Interpretability
Machine Learning Interpretability
 
Performance evaluation of GANs in a semisupervised OCR use case
Performance evaluation of GANs in a semisupervised OCR use casePerformance evaluation of GANs in a semisupervised OCR use case
Performance evaluation of GANs in a semisupervised OCR use case
 
People & Products – Lessons learned from the daily IT madness
People & Products – Lessons learned from the daily IT madnessPeople & Products – Lessons learned from the daily IT madness
People & Products – Lessons learned from the daily IT madness
 
Infrastructure as (real) Code – Manage your K8s resources with Pulumi
Infrastructure as (real) Code – Manage your K8s resources with PulumiInfrastructure as (real) Code – Manage your K8s resources with Pulumi
Infrastructure as (real) Code – Manage your K8s resources with Pulumi
 
Remote First – Der Arbeitsplatz in der Cloud
Remote First – Der Arbeitsplatz in der CloudRemote First – Der Arbeitsplatz in der Cloud
Remote First – Der Arbeitsplatz in der Cloud
 
Data Science und Machine Learning im Kubernetes-Ökosystem
Data Science und Machine Learning im Kubernetes-ÖkosystemData Science und Machine Learning im Kubernetes-Ökosystem
Data Science und Machine Learning im Kubernetes-Ökosystem
 
TTD Tatort-driven Development
TTD Tatort-driven DevelopmentTTD Tatort-driven Development
TTD Tatort-driven Development
 
Down the event-driven road: Experiences of integrating streaming into analyti...
Down the event-driven road: Experiences of integrating streaming into analyti...Down the event-driven road: Experiences of integrating streaming into analyti...
Down the event-driven road: Experiences of integrating streaming into analyti...
 
React mit TypeScript – eine glückliche Ehe
React mit TypeScript – eine glückliche EheReact mit TypeScript – eine glückliche Ehe
React mit TypeScript – eine glückliche Ehe
 
Manage your bare-metal infrastructure with a CI/CD-driven approach
Manage your bare-metal infrastructure with a CI/CD-driven approachManage your bare-metal infrastructure with a CI/CD-driven approach
Manage your bare-metal infrastructure with a CI/CD-driven approach
 
Connected Cooking powered by MQTT
Connected Cooking powered by MQTTConnected Cooking powered by MQTT
Connected Cooking powered by MQTT
 
MQTT in the Enterprise – How to successfully run an MQTT Message Broker
MQTT in the Enterprise – How to successfully run an MQTT Message BrokerMQTT in the Enterprise – How to successfully run an MQTT Message Broker
MQTT in the Enterprise – How to successfully run an MQTT Message Broker
 
Let's talk about Microservices Migration!
Let's talk about Microservices Migration!Let's talk about Microservices Migration!
Let's talk about Microservices Migration!
 

Representation Learning von Zeitreihen

  • 1. Das Unvorhersehbare vorhersagen: Representation Learning von Zeitreihen Marisa Mohr Köln, 26. März 2019
  • 2. M.Sc. Mathematik Machine Learning Engineer @inovex • Machine Perception & Artificial Intelligence Doktorandin @Universität zu Lübeck • Institut für Informationssysteme, Prof. Dr. Ralf Möller • “Time-Series Representation Learning” Marisa Mohr 2
  • 4. Makridakis 4 (M4)-Wettbewerb 1.1.2018 – 31.5.2018 › 100.000 reale Zeitreihen › „Wie lässt sich die Prognosegenauigkeit für Zeitreihen verbessern und für jeden Fall die am besten geeigneten Methoden ermitteln?“ 4
  • 5. Makridakis 4 (M4)-Wettbewerb 1.1.2018 – 31.5.2018 Ergebnisse: › 12/17 genauesten Methoden: Kombinationen von überwiegend statistischen Ansätzen › 1. Platz: Hybrider-Ansatz (sowohl Statistik als auch ML) › 2. Platz: Kombination aus 7 statistischen Methoden und 1 ML-Methode › Die 6 reinen ML-Methoden waren alle schlecht › Keiner von ihnen ist genauer als der statistische Benchmark und › nur einer ist genauer als Naive 5
  • 6. Deep Learning Ein kritischer Blick Tiefe künstliche neuronale Netze leisten unbestritten Fantastisches! Aber • Daten-hungrig • Beschränkter Transfer: Häufiges Versagen bei Extrapolation • Tiefe Architektur, aber kein tiefes Daten-Verständnis 6 Interesse eines „besseren“ Representation/Feature Learning – vor/innerhalb der eigentlichen Modellierung
  • 7. Informations- theoretischer Ansatz • Wie “komplex” ist eine Zeitreihe? • Nutze das „Auf und Ab“ • Inhomogenität, Unreinheit • Unsicherheit, Unvorhersagbarkeit 7
  • 9. Symbolisierung 9 • Unterteilung des Datenbereichs • Schwellenwertüberschreitungsmethode • Ordnungsrelation d c b a Sequenz: acaddcaaaccbbccccdaca Klassisch: Ordinal: Sequenz:
  • 10. Ordinales Muster 10 !(#) = (&, (, ), *, +, ,) -./0 > -./2 > -./3 > -./4 > -./5 > -./6 Zeitpunkt t = 6 1 2 3 4 5 6
  • 11. Ordinales Muster der Ordnung ! 11 Zeitpunkt t = 6Ordnung d = 5 1 2 3 4 5 6 '()* > '(), > '()- > '(). > '()/ > '()0 12(4) = 67(8) = (9, ;, <, 7, =, >)
  • 12. Symbolisierung von Zeitreihen 12 Klassisch: Ordinal: Symbolisierungen von Zeitreihen, und nun? Sequenzen: (2,0,1), (1,2,0), (2,0,1),…. d c b a Sequenz: acaddcaaaccbbccccdaca
  • 13. Benötigte Anzahl an Bits, um eine Nachricht anzuzeigen oder zu übermitteln Wie bestimmt man Komplexität? Gleichverteilung 13 c o m p u t e r 1 1 1 1 1 1 1 0 0 0 0 0 0 0 ! Zeichen, Gleichverteilung: "# = % & p = ( 1 8 , 1 8 , 1 8 , 1 8 , 1 8 , 1 8 , 1 8 , 1 8 ) Höhe log ! log ! = log 1 " = log 1 − log " = − log "
  • 14. › Nicht jedes Zeichen bzw. jede Nachricht ist gleichverteilt › Sequenz: acaddcaaaccbbccccdaca Wie bestimmt man Komplexität? Keine Gleichverteilung 14 b d 1 1 1 0 0 0 p = ( 2 21 , 3 21 , 7 21 , 9 21 ) a c + Zeichen, keine Gleichverteilung: ,- ≠ ,/ Nachrich t Code Länge Erwartet e Länge b 111 3 0,286 d 110 3 0,429 a 10 2 0,667 c 0 1 0,429 Erwartete Länge 1,811
  • 15. Entropie 15 − " #$% & '# log '# log + = − log ' Gleichverteilung Keine Gleichverteilung '%, '., … , '& ist ein stochastischer Vektor, d.h., • '%, '., … '& ∈ [0,1] und • ∑'# = 1 Nichts Neues: Shannon (1948)
  • 16. = Shannon-Entropie ordinaler Muster wobei ! " die relative Häufigkeit des ordinalen Musters " in der Zeitreihe ist. 16 Permutationsentropie (PE) − $ %∈' ! " log ! " ,
  • 17. Beispiel 17 !"# = − 4 5 log 4 5 − 1 5 log 1 5 ≈ 0,7219 • 4 Paare mit 23 < 235#, d.h., 6# 78 = (0,1) • 1 Paare mit 23 > 235#, d.h., 6# 78 = (1,0) 1 2 3 4 5 6
  • 18. PE im Deep Learning Nur ein weiteres beschreibendes Maß? • Strukturen von Daten lernen • PE „natürliches, intrinsisches“ Maß basierend auf Informationen • Auf und Ab des erzeugenden Systems • Konzeptionelles Maß • „Funktioniert“ auch bei chaotischen Systemen 18
  • 20. Datensätze 20 Theoretische Systeme • Lorenz- und Rössler System • Henon-Map • Logistische Gleichung • Bernoulli-Shift • Brown’sche Bewegung • Gauß’sches Rauschen • … Signale • Sprachsignale • Chaotische Signale • … Physikalische Systeme • Opto- elektronische Oszillatoren • Viele Arten von Lasern • … Medizin • epileptische Aktivität in EEG-Daten • Lokale Feldpotenziale • EKG-Daten • … Wirtschaft und Umwelt • Rekrutierung von Fischen • Population kanadischer Luchs • Sedimentdaten • Anleihen- Indizes und Aktien • Dow-Jones- Subindizes • …
  • 21. Quelle: Keller, K., Mangold, T., Stolz, I., Werner, J.: Permutation Entropy: New Ideas and Challenges Entropy 19(3) (2017) Klassifikation von EEG Daten 21 Daten: • EEG-Datenbank • Länge von 23.6s • Sampling Rate 173.61 Hz. • 5 Gruppen, je 100 Zeitreihen Gesund? Wie gemessen? Zustand A ja Oberfläche Offene Augen B ja Oberfläche Geschlossene Augen C nein Intrakraniell, epileptogene Zone Anfallsfreie Zeit D nein Intrakraniell, gegenüberliegende Gehirnhälfte Anfallsfreie Zeit E nein intrakraniell Anfallszeit
  • 22. Quelle: Keller, K., Mangold, T., Stolz, I., Werner, J.: Permutation Entropy: New Ideas and Challenges Entropy 19(3) (2017) Klassifikation von EEG Daten 22
  • 23. Quelle: Keller, K., Mangold, T., Stolz, I., Werner, J.: Permutation Entropy: New Ideas and Challenges Entropy 19(3) (2017) Klassifikation von EEG Daten 23 Ziel: Klassifikation von EEG-Daten zur Epilepsie-Detektion unter Verwendung von PE (sowie Erweiterungen) Modell: Random Forest Accuracy: bis zu 71,8%
  • 24. https://www.cmsattler.de/diktieren-spracherkennung-und-sprache-4-0/ , http://truth-and-beauty.net/projects/emoto, https://medium.com/@5agado/building-a-personal-virtual- assistant-step-1-your-cv-as-a-chatbot-a4381fce6983 Weitere sequentielle Daten 24
  • 25. Vielen Dank Marisa Mohr Machine Learning Engineer inovex GmbH Friesenweg 4 / Haus 13 22763 Hamburg marisa.mohr@inovex.de 01523 3181 259