Es liegt in der Natur des Menschen das Unvorhersehbare vorherzusagen: Wetter, Aktienkurse, Krankheitsverläufe, die Reaktion eines Menschen. Neueste Deep Learning Ansätze sind in der Lage solche sequentielle Sachverhalte immer genauer zu prognostizieren, setzen aber auch immer größere Datenmengen und Rechenleistungen voraus, die sowohl in Forschung als auch in der Praxis häufig nicht vorliegen. Wie kann man gute Ergebnisse erreichen, wenn nur wenig Daten vorliegen?
Marisa Mohr stellte in ihrem Vortrag einen neuen und vielversprechenden informationstheoretischen Ansatz zum Feature Learning von sequentiellen Daten vor, der potenziell auch mit wenigen Daten auskommt. Dabei ging es speziell um ordinale Muster in Zeitreihen, wie sie beispielsweise als Veränderung von Emotionen im Gesprächsverlauf zu finden sind. Eine solche Entwicklung ist für Menschen in der Regel leicht zu erkennen. Chatbots hingegen können nicht intuitiv auf solche Emotionsverläufe reagieren, sondern müssen entsprechend programmiert werden.
Details:
Deep-Learning-Ansätze wie LSTMs, RNNs oder TCNs haben sich im Umgang mit sequentiellen Daten bewährt. Neuronale Netzwerke sind tief im technischen Sinn, weil sie mehrere (verborgene) Schichten besitzen, aber nicht weil sie ein tiefes Verständnis von Problemen entwickeln. In diesem Vortrag stellte Marisa einen symbolischen informationstheoretischen Ansatz des Representation Learnings von Zeitreihen vor und damit eine Möglichkeit, konzeptionelle Schichten zu konstruieren. Die Idee hinter der sogenannten Permutationsentropie besteht darin, anstelle der Werte einer Zeitreihe die Ordnungsrelation zwischen den Werten zu betrachten, und so auf das natürliche Auf und Ab des zugrundeliegenden dynamischen Systems zurückzugreifen.
Event: inovex Meetup: Das Unvorhersehbare vorhersagen: Zeitreihen und Chatbots, 26.03.2019
Speakerin: Marisa Mohr (inovex)
Mehr Tech-Vorträge: inovex.de/vortraege
Mehr Tech-Artikel: inovex.de/blog
4. Makridakis 4 (M4)-Wettbewerb
1.1.2018 – 31.5.2018
› 100.000 reale Zeitreihen
› „Wie lässt sich die Prognosegenauigkeit für Zeitreihen verbessern
und
für jeden Fall die am besten geeigneten Methoden ermitteln?“
4
5. Makridakis 4 (M4)-Wettbewerb
1.1.2018 – 31.5.2018
Ergebnisse:
› 12/17 genauesten Methoden: Kombinationen von überwiegend
statistischen Ansätzen
› 1. Platz: Hybrider-Ansatz (sowohl Statistik als auch ML)
› 2. Platz: Kombination aus 7 statistischen Methoden und 1 ML-Methode
› Die 6 reinen ML-Methoden waren alle schlecht
› Keiner von ihnen ist genauer als der statistische Benchmark und
› nur einer ist genauer als Naive
5
6. Deep Learning
Ein kritischer Blick
Tiefe künstliche neuronale Netze leisten unbestritten Fantastisches! Aber
• Daten-hungrig
• Beschränkter Transfer: Häufiges Versagen bei Extrapolation
• Tiefe Architektur, aber kein tiefes Daten-Verständnis
6
Interesse eines „besseren“ Representation/Feature
Learning – vor/innerhalb der eigentlichen Modellierung
9. Symbolisierung
9
• Unterteilung des Datenbereichs
• Schwellenwertüberschreitungsmethode
• Ordnungsrelation
d
c
b
a
Sequenz: acaddcaaaccbbccccdaca
Klassisch: Ordinal:
Sequenz:
12. Symbolisierung von Zeitreihen
12
Klassisch: Ordinal:
Symbolisierungen von Zeitreihen, und nun?
Sequenzen: (2,0,1), (1,2,0), (2,0,1),….
d
c
b
a
Sequenz: acaddcaaaccbbccccdaca
13. Benötigte Anzahl an Bits, um eine Nachricht anzuzeigen oder zu übermitteln
Wie bestimmt man Komplexität?
Gleichverteilung
13
c o m p u t e r
1
1
1 1
1
1 1
0
0
0 0 0 0
0
! Zeichen, Gleichverteilung: "# =
%
&
p = (
1
8
,
1
8
,
1
8
,
1
8
,
1
8
,
1
8
,
1
8
,
1
8
)
Höhe
log !
log ! = log
1
"
= log 1 − log " = − log "
14. › Nicht jedes Zeichen bzw. jede Nachricht ist gleichverteilt
› Sequenz: acaddcaaaccbbccccdaca
Wie bestimmt man Komplexität?
Keine Gleichverteilung
14
b d
1
1
1
0
0
0
p = (
2
21
,
3
21
,
7
21
,
9
21
)
a
c
+ Zeichen, keine Gleichverteilung: ,- ≠ ,/
Nachrich
t
Code Länge Erwartet
e Länge
b 111 3 0,286
d 110 3 0,429
a 10 2 0,667
c 0 1 0,429
Erwartete Länge 1,811
18. PE im Deep Learning
Nur ein weiteres beschreibendes Maß?
• Strukturen von Daten lernen
• PE „natürliches, intrinsisches“ Maß basierend auf Informationen
• Auf und Ab des erzeugenden Systems
• Konzeptionelles Maß
• „Funktioniert“ auch bei chaotischen Systemen
18
20. Datensätze
20
Theoretische
Systeme
• Lorenz- und
Rössler System
• Henon-Map
• Logistische
Gleichung
• Bernoulli-Shift
• Brown’sche
Bewegung
• Gauß’sches
Rauschen
• …
Signale
• Sprachsignale
• Chaotische
Signale
• …
Physikalische
Systeme
• Opto-
elektronische
Oszillatoren
• Viele Arten
von Lasern
• …
Medizin
• epileptische
Aktivität in
EEG-Daten
• Lokale
Feldpotenziale
• EKG-Daten
• …
Wirtschaft und
Umwelt
• Rekrutierung
von Fischen
• Population
kanadischer
Luchs
• Sedimentdaten
• Anleihen-
Indizes und
Aktien
• Dow-Jones-
Subindizes
• …
21. Quelle: Keller, K., Mangold, T., Stolz, I., Werner, J.: Permutation Entropy: New Ideas and Challenges Entropy 19(3) (2017)
Klassifikation von EEG Daten
21
Daten:
• EEG-Datenbank
• Länge von 23.6s
• Sampling Rate 173.61 Hz.
• 5 Gruppen, je 100 Zeitreihen
Gesund? Wie gemessen? Zustand
A ja Oberfläche Offene Augen
B ja Oberfläche Geschlossene Augen
C nein Intrakraniell, epileptogene Zone Anfallsfreie Zeit
D nein Intrakraniell, gegenüberliegende
Gehirnhälfte
Anfallsfreie Zeit
E nein intrakraniell Anfallszeit
22. Quelle: Keller, K., Mangold, T., Stolz, I., Werner, J.: Permutation Entropy: New Ideas and Challenges Entropy 19(3) (2017)
Klassifikation von EEG Daten
22
23. Quelle: Keller, K., Mangold, T., Stolz, I., Werner, J.: Permutation Entropy: New Ideas and Challenges Entropy 19(3) (2017)
Klassifikation von EEG Daten
23
Ziel: Klassifikation von EEG-Daten
zur Epilepsie-Detektion unter
Verwendung von PE (sowie
Erweiterungen)
Modell: Random Forest
Accuracy: bis zu 71,8%