Anwendungen_der_KI_-_06_Maschinelles_Lernen_III.pdf

www.kit.edu
KIT – Die Forschungsuniversität in der Helmholtz-Gemeinschaft
Anwendungen der KI – WS 22/23
Maschinelles Lernen III
Vertretungsprof. Dr. Michael Färber

Institut für Angewandte Informatik und Formale
Beschreibungsverfahren (AIFB)
Dr. Michael Färber, Dr. Tobias Käfer: Anwendungen der KI
Kursübersicht
2
Datum Thema
Freitag, 04. November 2022 Einführung + Text Mining I
Freitag, 11. November 2022 Text Mining II
Freitag, 18. November 2022 Maschinelles Lernen I
Freitag, 25. November 2022 Maschinelles Lernen II
Freitag, 02. Dezember 2022 Maschinelles Lernen III
Freitag, 09. Dezember 2022 Gastvorlesung
Freitag, 16. Dezember 2022 Wissenserwerb und -repräsentation
Freitag, 23. Dezember 2022 Logisches Schließen
Freitag, 13. Januar 2023 Wissensgraphen
Freitag, 20. Januar 2023 Suchverfahren I
Freitag, 27. Januar 2023 Suchverfahren II
Freitag, 03. Februar 2023 Gastvorlesung
Freitag, 10. Februar 2023 Gastvorlesung
Freitag, 17. Februar 2023 Wiederholung und Fragestunde

Neuronale Netze
Komponenten eines Neuronalen
Netzes
Verschiedene Netzwerktypen
Methoden zum Lernen
Delta-Lernverfahren
Backpropagation
Vor- und Nachteile
Deep Learning
Was ist Deep Learning?
Wo wird es eingesetzt?
Deep Learning-Architekturen
Autoencoder
CNN
RNN / LSTM / BiLSTM / GRU /
Transformers
3
Vorlesungsüberblick

4
NEURONALE NETZE

Der unten gezeigte Datensatz ist nicht linear trennbar
SVM mit linearen Kernel kann die Daten nicht perfekt separieren
Wir benötigen somit ein Verfahren, das uns erlaubt, nicht-lineare Probleme ohne
feature engineering zu lösen Neuronale Netze!
5
Neuronale Netze: Motivation

Die Anwendung von künstlichen neuronalen Netzen (artificial neural networks, ANNs)
bzw. Deep Learning-Methoden nimmt zu aufgrund:
der größer werdenden Datenmenge
der zunehmenden Digitalisierung der Gesellschaft
der schnelleren Berechnung und Innovation bei der Entwicklung von Algorithmen
6
Neuronale Netze: Motivation - Skalierbarkeit

Grundgerüst cortico-corticaler Assoziations- und Kommissurfasern im Konnektom-Modell
der menschlichen Großhirnrinde:
7
Neuronale Netze
Quelle: Hagmann et al. (2008) Mapping the structural core of human cerebral cortex.
PLoS Biology Vol. 6, No. 7, e159.[1], CC BY 3.0, https://commons.wikimedia.org/w/index.php?curid=6246097

Informatik: (Künstliche) Neuronale Netze
angelehnt an neuronale Netze im menschlichen Gehirn
basieren meist auf McCulloch-Pitts-Zelle aus dem Jahr 1943
erste neuronale Lernregel von Donald O. Hebb in 1949
Karl Steinbuch stellt 1961 Techniken der assoziativen Speicherung vor
(1958-1980 Professor an Universität Karlsruhe (TH))
Wesentliche Fortschritte, Hype und Ernüchterung in den 1980er Jahren
Neue Durchbrüche ab 2000er Jahren
Boom seit 2015 mit “Deep Learning”
8
Neuronale Netze

9
Rechenaufwand für die größten KI-Trainingsläufe
Quelle: https://openai.com/blog/ai-and-compute/

Systeme mit NNs können z.B. sehr erfolgreich Schach oder GO spielen
Steigerung der Rechenleistung in den größten KI-Projekten um Faktor 300.000*
10
Neuronale Netze (NNs)
2016: Google DeepMind
Aplha Go besiegt
Go Weltmeister Lee Sedol
Quellen: Wikipedia
1997: IBM Deep Blue besiegt
Schachweltmeister Garri Kasparow
* https://t3n.de/news/rechenleistung-ki-systeme-1081130/

Abstraktes Modell eines Neurons
11
Neuronale Netze
b
Dendriten
Zellkörper
Axon
Übertragungsfunktion Aktivierungsfunktion

12
Neuronale Netze: Feed-Forward-Modell
Gewichtete Verbindungen
Input layer = Input Vector Hidden layer Output layer
Gewichtete Verbindungen

Ein neuronales Netz besteht aus:
Input Layer / Eingangsschicht
Hidden Layer(s) / verdeckte(n) Schicht(en) – sind optional!
Output Layer / Ausgabeschicht
Ein NN kann als gerichteter Graph
dargestellt werden
Eingaben, Neuronen und
Ausgaben sind Knoten
Verbindungen dazwischen
sind Kanten
13
Neuronale Netze: Modell

Durch die Kombination verschiedener Neuronen in verschiedenen Schichten
können wir ein komplexeres Modell erzeugen
Aktivierungsfunktionen in Hidden Layers
können linear oder nicht-linear sein
nicht-lineare Aktivierungsfunktionen
machen das Netzwerk komplexer
Das Schaubild zeigt ein “two-layer NN”
Input Layer zählt nicht!
Hidden Layer besteht aus 3 Neuronen
14
Neuronale Netze: Hidden Layer
x1
x2
Input Layer Hidden Layer Output Layer

Mehrschichtige NNs
Stand 1989: 30 Output-Knoten und 4 Hidden-Knoten
Stand heute: NNs haben typischerweise ein paar tausend bis ein paar
Millionen Einheiten sowie Millionen von Verbindungen
15

Darstellung durch Gewichtsmatrix
… eine Gewichtsmatrix sofern keine Hidden-Schicht existiert
… bei einer Hidden-Schicht würde man zwei Gewichtsmatrizen benötigen,
bei zwei Hidden-Schichten drei Matrizen usw.
Ziel: Berechnungen dadurch relativ einfach
16

Mehr Flexibilität durch höhere Anzahl von verdeckten Neuronen
Bei zu viel Flexibilität neigt das Netz zu Overfitting
Bei zu wenig Flexibilität ist das Netz nicht aussagekräftig genug
für eine Problemstellung
Oft zwischen 5 und 100 verdeckte Neuronen
Anzahl steigt mit der Anzahl der Eingabewerte und der Trainingseinheiten
Bestimmung der Anzahl von Hidden Layers
mit Hintergrundwissen
und/oder durch Experimente
17

Feed-Forward Netze:
Daneben gibt es noch eine
vielzahl weiterer Netze
Convolutional Neural Networks (CNN)
Dilated Neural Networks (DNN)
Auto Encoders (AE)
18
Neuronale Netze: Netzwerktypen

Stochastic Gradient Descent
(auch: Delta-Lernverfahren oder
Delta-Regel)
Einfachster Trainingsalgorithmus
Falls sich tatsächliche Ausgabe von
der Ziel-Ausgabe unterscheidet,
wird die Differenz bzw. der Fehler
berechnet
Der Gradientenabstiegsalgorithmus
ändert die Gewichte des Netzwerks
so, dass dieser Fehler minimiert
wird
Prinzip:
(1) Wähle zufällige Gewichte
(2) Lege Testmuster an
(3) Falls Perzeptronausgabe falsch,
dann verändere Gewichte
(4) Gehe zu (2), bis richtige
Perzeptronausgabe für alle
Testmuster
19
Neuronale Netze: Methoden zum Lernen

Delta-Lernverfahren basiert auf
Gradientenabstiegsverfahren
Es aktualisiert die Gewichtung unter
Beachtung jedes einzelnen Datenpunktes.
Batch Gradient Descent aktualisiert die
Gewichtung unter Beachtung des
gesamten Datensatzes
Lernrate 𝜶 ist z.B. 0,001
Frage: Was geschieht, wenn die Lernrate
zu groß oder zu klein gewählt wird?
20
Neuronale Netze: Delta-Lernverfahren
𝑤𝑖 = 𝑤𝑖 − 𝛼
𝜕
𝜕𝑤𝑖
𝒥(𝑤𝑖)
X
X
Ableitung ist negativ
Update nach rechts
Ableitung ist positiv
Update nach links
𝑤1
𝒥(𝑤𝑖)

Fehler wird “zurück propagiert”
In jedem Neuron wird der Fehler berechnet
21
Input
Layer
hidden
Layer
hidden
Layer
Output
Layer
Data Stream (Propagation)
Error Stream (Backpropagation)
Error
Data
Input

Andere Algorithmen zum Lernen
Momentum
RMSProp
Adadelta
Adam
22

Eingabewerte können nicht nur addiert, sondern auch multipiliziert werden, …
… oder es kann lediglich die kleinste, oder die größte Eingabe gewählt werden.
23
Neuronale Netze

Die Übertragungsfunktion des Netzes entscheidet, ob die Reizung eines
Neurons auch zur Aktivierung führt.
Anmerkung: wir gehen generell
von einer Summe als
Übertragungsfunktion aus
24
Neuronale Netze: Übertragungsfunktion
xi
x
i
xi xi

Die Aktivierungsfunktion beeinflusst den Wert, welcher durch das Neuron
weitergegeben wird
Im Allgemeinen sind Aktivierungsfunktionen monoton steigend
Gängige Aktivierungsfunktionen sind:
Sigmoidfunktion
Schwellenwertfunktion
Stückweise lineare Funktion
Tangens Hyperbolikus Funktion
Gaussfunktion
25
Neuronale Netze: Aktivierungsfunktion

Sigmoidfunktion führt eine
Nichtlinearität in das Netzwerk ein,
indem es die Aktivierung des Neurons
in einen Bereich [0,1] “quetscht”
Wird häufig im Output Layer
verwendet
Ist Differenzierbar: benötigt für
Backpropagation
26
Neuronale Netze: Sigmoidfunktion

ReLU (Rectified Linear Unit)
Die zur Zeit mit am häufigsten
verwendete Aktivierungsfunktion
Funktion konvergiert sehr schnell
Negative Werte werden null
Beeinflusst das Ergebnis, indem
es die negativen Werte nicht
entsprechend abbildet.
27
Neuronale Netze: ReLu-Funktion

Schwellenwertfunktion nimmt nur
die Werte 0 oder 1 an
Manchmal auch -1 und 1
Sie wird nur aktiviert, wenn ein
Schwellenwert überschritten wird
28
Neuronale Netze: Schwellenwertfunktion

29
Neuronale Netze: Häufige Aktivierungsfunktionen
See https://www.programmersought.com/article/1060528072/

Ausgabe eines Neurons …
wird durch die Aktivierungsfunktion bestimmt
Aktivierung …
wird beeinflusst durch die Übertragungsfunktion
sowie einem Schwellenwert
30
Neuronale Netze: Aktivierungsfunktionen

Gegeben ist folgendes neuronales
Netz, welches das XOR Problem löst
Gehen Sie jeweils von Sigmoid
Aktivierungsfunktionen aus
31
Neuronale Netze: Beispiel Berechnung Output
n1,1
n1,2
x1
x2
ො
𝑦
x1 x2 Label
0 0 0
0 1 1
1 0 1
1 1 0
20
20
-20
20
20
-20
b=-10
b=30
b=-30

(0,0)
32
n1,1
n1,2
x1
x2
ො
𝑦
20
20
-20
20
20
-20
b=-10
b=30
b=-30
s(z) =
1
1+e-a×z
𝜎 −10 =
1
1+𝑒10 ≈0
𝜎 30 =
1
1 + 𝑒−30
≈ 1

(0,0)
Somit Vorhersage ො
𝑦 = 0
33
n1,1
n1,2
x1
x2
ො
𝑦
20
20
-20
20
20
-20
b=-10
b=30
b=-30
s(z) =
1
1+e-a×z
𝜎 10 =
1
1+𝑒10 ≈0

(1,0)
34
n1,1
n1,2
x1
x2
ො
𝑦
20
20
-20
20
20
-20
b=-10
b=30
b=-30
s(z) =
1
1+e-a×z
𝜎 10 =
1
1 + 𝑒−10 ≈ 1
𝜎 10 =
1
1 + 𝑒10
≈ 1

(1,0)
Somit Vorhersage ො
𝑦 = 1
35
n1,1
n1,2
x1
x2
ො
𝑦
20
20
-20
20
20
-20
b=-10
b=30
b=-30
s(z) =
1
1+e-a×z
𝜎 10 =
1
1 + 𝑒−10
≈ 1

Darstellung der Decision Boundaries eines Neuronalen Netzes über
verschiedene Iterationen
InputLayer: 2 Neuronen
4 Hidden Layer (ReLu Aktivierungsfunktion): 100 Neuronen
Output Layer (Sigmoid Aktivierungsfunktion): 1 Neuron
36
Neuronale Netze: Beispiel einer Decision Boundary

Folgende Klassen sollen separiert warden
Im Folgenden wird die Decision Boundary über die unterschiedlichen
Iterationen/Epochen dargestellt
37

38

39

40

41

42

43

44

45

46

Gegeben sei folgendes Muster und
ein neuronales Netz:
Aufgabe:
Berechnen Sie auf Basis des
Delta-Lernverfahrens die
entsprechenden Gewichte.
Gehen Sie von einer linearen
Aktivierungsfunktion aus.
Start mit
initiale Gewichtung von 0 für
alle Kanten und
Lernrate von 0,25
Verwenden Sie folgende Loss
function:
47
Neuronale Netze: Anwendungsbeispiel
Muster 0 1 2 3 4
0 1 -1 1 -1 1
1 1 1 1 1 1
2 1 1 1 -1 -1
3 1 -1 -1 1 -1
𝒥 𝑤𝑖 =
1
2
𝑤 ∙ 𝑥 − 𝑦 2
0 1 2 3
4

Iteration 1, erstes Muster:
48
Muster Eingabe Ziel Ausgabe Fehler
0 1 2 3
0 1 -1 1 -1 1 0 1 0,25 -0,25 0,25 -0,25 0,25 -0,25 0,25 -0,25
1 1 1 1 1 1 0 1 0,25 0,25 0,25 0,25 0,5 0 0,5 0
2 1 1 1 -1 -1 1 -2 -0,5 -0,5 -0,5 0,5 0 -0,5 0 0,5
3 1 -1 -1 1 -1 1 -2 -0,5 0,5 0,5 -0,5 -0,5 0 0,5 0
4
Input/Output-Matrix
0 1 2 3
4
0 0 0 0
0*1 + 0*(-1) + 0*1 + 0*(-1)
𝑤𝑖 = 𝑤𝑖 − 𝛼
𝜕
𝜕𝑤𝑖
𝒥(𝑤𝑖)
𝒥 𝑤𝑖 =
1
2
𝑤0 ∙ 𝑥0 + 𝑤1 ∙ 𝑥1 + 𝑤2 ∙ 𝑥2 + 𝑤3 ∙ 𝑥3 − 𝑦 2
𝜕
𝜕𝑤0
𝒥 𝑤0 = 𝑤0 ∙ 𝑥0 + 𝑤1 ∙ 𝑥1 + 𝑤2 ∙ 𝑥2 + 𝑤3 ∙ 𝑥3 − 𝑦 ∙ 𝑥0 Update-Regel
Ausgabe
…

Iteration 1, zweites Muster:
49
0 1 2 3
0 1 -1 1 -1 1 0 1 0,25 -0,25 0,25 -0,25 0,25 -0,25 0,25 -0,25
1 1 1 1 1 1 0 1 0,25 0,25 0,25 0,25 0,5 0 0,5 0
2 1 1 1 -1 -1 1 -2 -0,5 -0,5 -0,5 0,5 0 -0,5 0 0,5
3 1 -1 -1 1 -1 1 -2 -0,5 0,5 0,5 -0,5 -0,5 0 0,5 0
4
Input/Output-Matrix
Berechne erst Ausgabe,
dann berechne Fehler
als Differenz zu Ziel (4)
0,25*1 - 0,25*1 + 0,25*1 – 0,25*1
Berechne Passe an
0,25 + 0,25

Iteration 1, alle Muster:
Führe alle Schritte für alle Testmuster durch:
Die in Iteration 1 gelernte Gewichtung ist:
wij = ( -0,5 , 0 , 0,5 , 0)
50
0 1 2 3
0 1 -1 1 -1 1 0 1 0,25 -0,25 0,25 -0,25 0,25 -0,25 0,25 -0,25
1 1 1 1 1 1 0 1 0,25 0,25 0,25 0,25 0,5 0 0,5 0
2 1 1 1 -1 -1 1 -2 -0,5 -0,5 -0,5 0,5 0 -0,5 0 0,5
3 1 -1 -1 1 -1 1 -2 -0,5 0,5 0,5 -0,5 -0,5 0 0,5 0
4

Iteration 2, alle Muster:
Führe (wiederum) alle Schritte für alle Testmuster durch:
Die in Iteration 2 gelernte Gewichtung ist:
wij = ( -0,75 , -0,25 , 0,75 , 0,25)
51
0 1 2 3
0 1 -1 1 -1 1 0 1 0,25 -0,25 0,25 -0,25 -0,25 -0,25 0,75 -0,25
1 1 1 1 1 1 0 1 0,25 0,25 0,25 0,25 0 0 1 0
2 1 1 1 -1 -1 1 -2 -0,5 -0,5 -0,5 0,5 -0,5 -0,5 0,5 0,5
3 1 -1 -1 1 -1 0 -1 -0,25 0,25 0,25 -0,25 -0,75 -0,25 0,75 0,25
4

usw..
Nach 30 Iterationen konvergiert es gegen die gewünschte Gewichtung
Die schließlich gelernte Gewichtung ist (aufgerundet):
wij = (-1, -1, 2, 1)
52
Muster
Eingabe Ziel Ausgabe Fehler
0 1 2 3
0 1 -1 1 -1 1 0,999576694 0,000423306 0,000105826 -0,000105826 0,000105826 -0,000105826 -0,999788347 -0,999788347 1,999576694 0,999576694
1 1 1 1 1 1 0,999576694 0,000423306 0,000105826 0,000105826 0,000105826 0,000105826 -0,999682521 -0,999682521 1,999682521 0,999682521
2 1 1 1 -1 -1 -0,999365041 -0,000634959 -0,00015874 -0,00015874 -0,00015874 0,00015874 -0,99984126 -0,99984126 1,999523781 0,99984126
3 1 -1 -1 1 -1 -0,999682521 -0,000317479 -7,93698E-05 7,93698E-05 7,93698E-05 -7,93698E-05 -0,99992063 -0,999761891 1,999603151 0,999761891
4

Universelle Approximationseigenschaft
Jede stetige Funktion kann durch eine mehrschichtige KNN mit nur einer versteckten
Schicht (unter weiteren Annahmen) angenähert werden
Nichtlinearität
Fähigkeit komplexe Funktionen zu modellieren
Robustheit
Ignoriert irrelevante Eingaben und Rauschen (Noise)
Anpassungsfähigkeit
Kann die Gewichte auf der Grundlage von Umgebungsänderungen anpassen
Einfache Benutzbarkeit
Kann mit wenig Kenntnis über die Beziehung der zu modellierenden Funktion
verwendet werden
53
Neuronale Netze: Eigenschaften von Multi-Layer KNN

Liefern bessere Ergebnisse (im Vergleich zu statistischen Verfahren),
wenn Problem nicht-linear ist und es viele Eingabedaten gibt
Verhältnismäßig wenige Parameter
Für große Datenmengen und viele Datendimensionen (Einflussfaktoren)
können sinnvolle Ergebnisse ermittelt werden
54
Neuronale Netze: Vorteile

NNs neigen generell eher zum Overfitting
Overfitting nimmt mit steigender Komplexität / Ausdrucksfähigkeit zu
Daher: vorsichtige / umsichtige Evaluation
NNs neigen dazu, in lokale Minima zu laufen
Trainingszeiten sind für komplexe Netzwerke sehr lang
Benötigen viele Iterationen
55
Neuronale Netze: Probleme

Häufige Iterationen in "engen Tälern”
Stagnation auf ebenen Flächen
Gefahr, in lokale Minima zu laufen
56
Neuronale Netze: Probleme
E
E
E

Schwierige Nachvollziehbarkeit eines NNs
Viele Trainingsdaten werden benötigt
Hoher Rechenaufwand
Ist das Problem mathematisch beschreibbar, sind NNs oftmals schlechter oder
maximal genauso gut wie weniger komplexe Verfahren
Es ist zu keinem Zeitpunkt bekannt, ob die gefundene Lösung das globale
Optimum ist oder ob es noch bessere Lösungen gibt
57
Neuronale Netze: Nachteile

58
DEEP LEARNING

Einer der ersten Erfolge (2012): Erkennung von Katzenbildern
Siehe z.B. https://www.wired.com/2012/06/google-x-neural-network/
59
Deep Learning

Deep Learning bezeichnet die Anwendung von neuronalen Netzen
mit mehr als einem Hidden Layer (meistens sogar “viele”)
Deep Learning ist also ein Teilbereich des maschinellen Lernens
Bei vielen Verfahren des maschinellen Lernens greift ein Mensch in die Analyse der
Daten und den eigentlichen Entscheidungsprozess ein.
Beim Deep Learning sorgt ein Mensch lediglich dafür, dass die Informationen für das
Lernen bereitstehen und die Prozesse dokumentiert sind.
Die eigentliche Analyse und das Ableiten von Prognosen oder Entscheidungen
wird der Maschine selbst überlassen.
Es lässt sich im Nachhinein nicht mehr vollständig zurückverfolgen, auf Basis
welcher genauen Muster eine Maschine eine bestimmte Entscheidung getroffen hat.
Deep Learning eignet sich besonders gut für große Datenbestände
60
Deep Learning

Deep Learning findet nahezu überall in unserem Alltag, oft unbemerkt, statt …
Gesichtserkennung
Übersetzungsmaschinen
Vorhersage von Wirkungen eines Medikaments
Dabei kann Deep Learning sowohl für supervised als auch unsupervised
Problemstellungen verwendet werden
Die Investititionen im Bereich Deep Learning stieg in den letzten Jahren stark an
2014: Google übernimmt “Deep Mind” für $400 Millionen
2014: IBM investiert $1 Millarde in Watson und AI
2019: Microsoft investiert $1 Millarde in OpenAI (mit GPT-3)
… und noch viele weitere, genaue Zahlen sind oft nicht bekannt.
61
Deep Learning

DeepMind AI von Google hat sich selbst beigebracht zu laufen
https://www.youtube.com/watch?v=gn4nRCC9TwQ
Der Agent hat Sensoren, welche ihm Informationen über seine Umwelt bereitstellen
Dem Agenten wurde lediglich der Anreiz
gegeben, von A nach B zu gelangen.
Wie er das machen kann, wurde ihm
nicht gezeigt.
Er hat daraufhin selbständig
laufen “gelernt” und sich über
Hindernisse fortbewegt.
62
Deep Learning: Google’s Deep Mind

Forscher verwendeten hier “Deep Reinforcement Learning”
Kombination aus Reinforcement Learning (RL) und Deep Learning (DL)
Idee: RL + DL = Allgemeine Intelligenz
Reinforcement Learning (RL)
Jede Aktion beeinflusst den Umweltzustand
Erfolge werden belohnt
Ziel ist es, durch Aktionen eine maximale Belohnung zu erhalten
Deep Learning (DL)
Gegeben ein Ziel
Lerne Repräsentationen von rohen Daten, welche notwendig sind, um das Ziel zu
erreichen
… Verfahren verwendet dabei minimales Domänen-Wissen
63
Deep Learning: Google’s Deep Mind

Autonomes Fahren
Verwendet Objekterkennung, um die derzeitige Situation einzuschätzen
Unteres Bild zeigt vom Fahrzeug erkannte Situation
64
Deep Learning: Anwendungsbereiche

Übersetzen von gesprochenen Texten
Google Translate arbeitet bspw. mit
einem neuronalen Netz
Um in Echtzeit laufen zu können,
musste Google mehrere
mathematische Operationen
optimieren.
z.B. Tuning von Matrix Multiplikation
65

Gesichts-, Objekt- oder Spracherkennung
Bei der Spracherkennung ist es beispielsweise dank des Deep Learnings
möglich, dass die Systeme ihren Wortschatz selbstständig mit neuen Wörtern
oder Wortwendungen erweitern.
Beispiel für eine solche Arbeitsweise ist der intelligente Sprachassistent Siri
von Apple.
Anderes Beispiel:
66

3 wichtige neuronale Netzwerk-Architekturen:
67
Deep Learning-Architekturen
Unsupervised
Pre-trained Networks
Convolutional
Neural Networks
Recurrent
Neural Networks

Unüberwachte vortrainierte Netzwerke
(Unsupervised Pre-trained Networks)
Autoencoders Deep Belief Networks
Generative Adversarial
Networks
68
Literatur:
Erhan et al. “Why does unsupervised
pre-training help deep learning?”,
JMLR, 2010.

69
Generative Adversarial Network (GAN)
Source: https://pixabay.com/
See also https://www.slideshare.net/xavigiro/deep-learning-for-computer-vision-generative-models-and-adversarial-training-upc-2016
Example use case: Deepfakes
https://www.youtube.com/watch
?v=cQ54GDm1eL0

Convolutional Neural Networks
Convolutional
Neural Network
Recurrent Convolutional
Neural Network
Convolutional
Deep Belief Network
70

Recurrent Neural Networks
Long Short-Term Memory
Hierarchical Bidirectional
Recurrent Neural Network
Bidirectional Recurrent
Neural Network
71

Architekturen im Folgenden
1. Autoencoders
2. Convolutional Neural Networks (CNN)
3. Long Short-Term Memory (LSTM / RNN)
72
4. Transformers

Autoencoder
Input
Komprimierter feature-Vektor
Encoder Decoder
73
siehe [Hinton & Zemel, 1994]

Ein Autoencoder ist ein neuronales Netzwerk, das darauf trainiert ist, die Eingabe in die
Ausgabe zu kopieren, mit dem typischen Zweck der Dimensionsreduktion (komprimierter
Merkmalsvektor).
Autoencoder sind eine Form des unüberwachten Lernens, was bedeutet, dass ein
Autoencoder nur ungelabelte Daten benötigt.
74
Autoencoder

Autoencoder – Encoder, Decoder
Funktionen für Encoder und Decoder:
Input : (x)
Encoder: z = wobei W (Gewichtsmatrix) ein Encoder-Filter ist mit
Decoder: y = Dz mit D (Gewichtsmatrix) ist der Decoder-Filter
Lernen: Minimiere die cross-entropy loss zwischen Input (x) und
Rekonstruktion (y), mit sigmoid als Decoder-Aktivierungsfunktion.
Loss(x,y) =
75

Wenn lineare Aktivierungsfunktionen verwendet werden oder nur eine einzige verborgene
sigmoid-Schicht, ist die optimale Lösung für einen Autoencoder ähnlich zur Lösung einer
Hauptkomponentenanalyse (PCA).
Jedoch ist PCA auf ein lineares mapping beschränkt, während Autoencoder nichtlineare
Encoder / Decoder haben können.
76
Autoencoder vs. PCA

Autoencoder vs. PCA
Rekonstruktion von Bildern mittels Autoencoder und
Rekonstruktion mittels PCA.
Michela Massi, English Wikipedia (CC BY-SA 4.0)
77

Stacked Autoencoders Denoising Autoencoders
78
Autoencoder – Variationen
Source: Francois Pachet

Overview
1. Autoencoders
79
4. Transformers

Das Ziel eines CNN ist es, Merkmale höherer Ordnung in den Daten über
Faltungen zu lernen.
CNNs sind in der Regel am nützlichsten, wenn die Eingabedaten strukturiert
sind.
80

Die biologische Inspiration für CNNs ist der visuelle Kortex bei Tieren.
81

82

Multi-Layer Perceptron (ML)-Problem, etwa bei Bildern:
“Curse of Dimensionality”
Beispiel:
Wenn das Bild 300x300x3 hat
(Höhe x Breite x Farbe):
270.000 Werte als MLP-Input.
83

Ein CNN ordnet seine Neuronen in drei Dimensionen an (z. B. Breite, Höhe,
Tiefe).
84

85
Aufbau eines einfachen CNNs

Convolution (Faltung):
Berechnet die Ausgabe von Neuronen, die mit „lokalen Regionen“ in der
Eingabe verbunden sind.
86
Convolution-Schritt
Input Convolution Output-Convolution

87
Convolution-Schritt (2)
Input
Filter
Output-Convolution
…

ReLU: wendet eine elementweise Aktivierungsfunktion an, z. B. den maximalen
Schwellenwert (0, x).
88
ReLU-Schritt

Pool: Führt eine Downsampling-Operation entlang der räumlichen
Dimensionen (Breite, Höhe) durch.
89
Pooling-Schritt
Max pool

Fully connected (vollständig verbunden): berechnet die Ergebnisse der
Klassifikation. Wie bei Feed-Forward-Netzen wird jedes Neuron in dieser
Schicht mit allen Neuronen in der Schicht davor verbunden.
90

91

Für Bildklassifikation (image classification)
Alex Krizhevsky et al: “ImageNet Classification with Deep Convolutional Neural Networks”, NIPS 2012.
Note: 60 million learned parameters; first use of ReLU; dropout 0.5; heavy data augmentation.
92
AlexNet
See also https://www.ic.unicamp.br/~sandra/pdf/class/2019-2/mc886/2019-10-16-MC886-CNN-Architectures.pdf
~75k citations

Overview
1. Autoencoders
93
4. Transformers

Rekurrente Neuronale Netze haben “Schleifen”.
A “schaut“ auf die Eingabe xt und gibt einen Wert ht aus.
Gut für Sequenzen und Listen.
94
Rekurrentes Neuronales Netz
(Recurrent Neural Network; RNN)
http://colah.github.io/posts/2015-08-Understanding-LSTMs/

Mit tanh
95
Standard-RNN

RNN erfasst keine langfristigen Abhängigkeiten und behält den Kontext nicht
bei.
96
Problem von RNNs

Long Short Term Memory-Netzwerke – normalerweise nur als „LSTMs“
bezeichnet – sind eine spezielle Art von RNN, die in der Lage sind, langfristige
Abhängigkeiten zu lernen.
97
Long Short-Term Memory (LSTM)
See also http://colah.github.io/posts/2015-08-Understanding-
LSTMs/
Paper: https://www.bioinf.jku.at/publications/older/2604.pdf

Wiederholendes Modul von LSTMs:
98
Long Short-Term Memory (LSTM)

Die sequentielle Berechnung verhindert die Parallelisierung
Keine explizite Modellierung von Lang- und Kurzstreckenabhängigkeiten
"Abstand" zwischen Positionen ist linear. Zu lange LSTMs arbeiten schlecht.
99
Nachteile von LSTMs
Siehe
https://towardsdatascience.com/
transformers-141e32e69591

Verarbeitet die Daten (z. B. Satz) auch in umgekehrter Richtung.
100
Bidirectional LSTM (BiLSTM)
Source: Arvind Mohan

101
Gated Recurrent Unit (GRU)
See https://towardsdatascience.com/illustrated-guide-to-lstms-and-gru-s-a-step-by-step-explanation-44e9eb85bf21
LSTM hat drei Tore
(input/output/forget gates)
GRU hat zwei Tore
(reset/update gates)

Konzentrieren Sie sich auf bestimmte Informationen
102
Attention
Source: https://google.github.io/seq2seq/

“Attention Is All You Need”: https://arxiv.org/abs/1706.03762
Encoder-Decoder-Architektur mit “word-embeddings” und “self-attention”
Technische Einführung: “LSTM is dead. Long Live Transformers!”
https://www.youtube.com/watch?v=S27pHKBEp30
Allgemeine Einführung auf Deutsch: https://breos.com/google-transformer/
103
Transformers

Neuronale Netze
Bestehen aus Neuronen,
Aktivierungsfunktionen, Dendrite
Verschiedene Aktivierungsfunktionen
Sigmoid, Schwellenwertfunktion,
Tanhbyperbolikus Funktion
Methoden zum Lernen
Delta-Lernverfahren
Backpropagation
Benötigen große Datenbestände zum Lernen
Große Netzwerke sind schwer Interpretiertbar
Black-Box Verfahren
Deep Learning
Neuronale Netze mit mindestens einem
Hidden Layer
Verwendet für
Übersetzungen
Autonomes Fahren
Sprach-, Gesichts- und Objekterkennung
…
Autoencoder
CNN
RNN / LSTM / BiLSTM / GRU /
Transformers
104
Zusammenfassung

Anwendungen_der_KI_-_06_Maschinelles_Lernen_III.pdf

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Empfohlen

Empfohlen (20)

Anwendungen_der_KI_-_06_Maschinelles_Lernen_III.pdf