Machine Learning Algorithms Vom Gradientenabstieg über Monte Carlo bis hin zu Genetischen Algorithmen Martin Szugat (Marti...
Agenda <ul><li>Grundlagen </li></ul><ul><li>Dynamische Programmierung </li></ul><ul><li>Gradientenabstieg </li></ul><ul><l...
Bayes‘sche Schlussfolgerung <ul><li>Modell M; Daten D; Wahrscheinlichkeiten P nach Bayes </li></ul><ul><li>Maximiere P(M|D...
Modellbildung <ul><li>Bilde Modell M=M( w ) mit Parametern  w </li></ul><ul><li>Berechne/Schätze Verteilung von P( w |D) <...
Dynamische Programmierung <ul><li>Ziel: Maximiere Likelihood P(D| w ) </li></ul><ul><li>Idee: „Divide & Conquer“, „Reuse“ ...
Gradientenabstieg <ul><li>Ziel: Maximierung von P( w |D) bzw. P(D| w ) </li></ul><ul><li>Ansatz: Minimierung von  f  ( w )...
GA - Skizze
GA - Anwendung <ul><li>Iterative Anwendg.    Annäherung an Minima </li></ul><ul><ul><li>Konvergenzkriterium: | w  t + 1  ...
GA - Beispiel <ul><li>Sei  f  ( w ) = ½  w  ², also  f  ‘( w ) =  w . </li></ul><ul><ul><li>Somit  f  ‘( w 0 ) = 0 für  w ...
EM/GEM-Algorithmus <ul><li>Abk. f. (Generalized) Expectation Maximization </li></ul><ul><li>Anwendung bei: Versteckten Var...
EM – Prinzip I <ul><li>Ansatz: Maximierung von ( E  : Erwartungswert) </li></ul><ul><li>Iteration über die Parameter  w  t...
EM - Skizze
EM – Freie Energie <ul><li>Definiere als Energie für die versteckten Variablen:  </li></ul><ul><li>Für die Verteilung Q üb...
EM – Prinzip II <ul><li>Umformulierung: </li></ul><ul><li>E  : Berechne Boltzmann-Gibbs-Vert. Q*(H), </li></ul><ul><ul><li...
EM – Zusammenfassung <ul><li>Minimierung der freien Energie: </li></ul><ul><ul><li>Abwechselnd: Q und  w  variieren </li><...
Markov-Chain Monte-Carlo Methoden <ul><li>Ziel: Berechne Erwartungswert v. P(x 1 , …, x n ) </li></ul><ul><ul><li>x i  : M...
Markov-Ketten I <ul><li>System mit Zuständen S = {s 1 , s 2 , …, s |S| } </li></ul><ul><li>Folge von Zuständen: S 0 ,S 1 ,...
Markov-Ketten II <ul><li>Stationäre ~: Übergangswahrscheinlich. konst. </li></ul><ul><ul><li>Übergangsmatrix: T = (t ij ),...
Gibbs-Sampling <ul><li>Gegeben: Bedingte Verteilung P(x i |x j : j ≠ i) </li></ul><ul><li>Iterative Auswahl der Variablen ...
Metropolis Algorithmus <ul><li>Ziel: Erzeuge Stichproben von P(s), s = (x 1 , ..., x n ) </li></ul><ul><li>Ansatz: Zwei Me...
Metropolis - Verteilungen <ul><li>Für Q symmetrisch (q ij  = q ji ) :  </li></ul><ul><ul><li>Wähle für R: </li></ul></ul><...
Metropolis - Energie <ul><li>P als Funktion der Energie: </li></ul><ul><li>Verteilung R umformuliert: </li></ul><ul><ul><l...
Simulated Annealing <ul><li>Ziel: Minimiere Funktion  f  (x 1 , ..., x n ) </li></ul><ul><li>Ansatz: „Abkühlen“ von Funkti...
Boltzmann-Gibbs-Verteilung <ul><li>System im Zustand s bei Temperatur T (k: Boltzmann): </li></ul><ul><li>Bei niedrigen Te...
SA - Skizze
SA - Vorgehensweise <ul><li>Beginne mit hoher Temperatur T 0 . </li></ul><ul><li>Senke die Temperatur T  t  in Abh. v.  t ...
Annealing Schedule <ul><li>Logarithmisch: </li></ul><ul><ul><li>Sehr wahrscheinlich  globales Minimum </li></ul></ul><ul><...
Genetische Algorithmen <ul><li>Heuristische Suche: Suboptimale Lösungen </li></ul><ul><li>Ansatz: „Survival of the Fittest...
Proteinstrukturalignierung mittels Genetischem Algorithmus <ul><li>„ Protein Structure Alignment Using a Genetic Algorithm...
Proteinstrukturalignierung <ul><li>Ziel: Räumliche Überlagerung der Reste </li></ul><ul><li>Zweck: Strukturelle Ähnlichkei...
KENOBI - Methode <ul><li>Phase: Genetischer Algorithmus </li></ul><ul><ul><li>Alignierung der Sekundärstrukturelemente </l...
Fitnessfunktion:  Elastic Similarity Score I <ul><li>Intramolekulare Distanzen </li></ul><ul><ul><li>Distanzmatrizen d A ,...
Fitnessfunktion:  Elastic Similarity Score II <ul><li>Maximierung der Anzahl an Paaren  </li></ul><ul><ul><li>von überlage...
1. Phase: Genetischer Algorithmus <ul><li>Erzeuge eine Population von SSE-Alignments </li></ul><ul><li>Verändere die Align...
1. Phase: Anfängliche Population <ul><li>Zufällige Erzeugung von 100 Alignments </li></ul><ul><li>SSE werden nach Typ (Hel...
1. Phase: Operatoren I <ul><li>mutate: 3% pro Paar </li></ul><ul><ul><li>SSE um eins verlängern, verkürzen oder verschiebe...
1. Phase: Operatoren II <ul><li>swap: 5% pro Alignment </li></ul><ul><ul><li>Zwei Alignments werden zufällig gewählt </li>...
1. Phase: Fitness der Population <ul><li>Elastic Similarity Score (ESS) </li></ul><ul><ul><li>S‘ < S    Änderungen werden...
1. Phase: Abbruch des GA <ul><li>Vorgegebene Anzahl an Runden </li></ul><ul><li>Bester Score bleibt unverändert  </li></ul...
2. Phase: Erweiterung <ul><li>Überlagerung der Proteinstrukturen </li></ul><ul><ul><li>Minimale Distanz </li></ul></ul><ul...
KENOBI – Diskussion <ul><li>Einfache Anwendung    Keine Parameter </li></ul><ul><li>Schnelle Verarbeitung    Alignierung...
Zusammenfassung <ul><li>Maximiere P(M|D) bzw. P(D|M) </li></ul><ul><ul><li>Minimiere -log P( w |D) bzw. -log P(D| w )  </l...
Datenauswahl <ul><li>Datenmengen für  </li></ul><ul><ul><li>Training : Lernphase </li></ul></ul><ul><ul><li>Validierung : ...
Modellkomplexität <ul><li>Under-/Overfitting: Modell zu schwach/stark justiert </li></ul><ul><ul><li>Abh. v. Freiheitsgrad...
Noch Fragen??? <ul><li>May the source be with you ... </li></ul>
Nächste SlideShare
Wird geladen in …5
×

Maschinelles Lernen

3.266 Aufrufe

Veröffentlicht am

Einführung in verschiedene Algorithmen des Maschinellen Lernens

Veröffentlicht in: Technologie, Bildung
0 Kommentare
2 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

Keine Downloads
Aufrufe
Aufrufe insgesamt
3.266
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
95
Aktionen
Geteilt
0
Downloads
0
Kommentare
0
Gefällt mir
2
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Maschinelles Lernen

  1. 1. Machine Learning Algorithms Vom Gradientenabstieg über Monte Carlo bis hin zu Genetischen Algorithmen Martin Szugat (Martin.Szugat@GMX.net) Hauptseminar: „The Machine Learning Approach“ Im WS 2003/04 bei Prof. Dr. Zimmer
  2. 2. Agenda <ul><li>Grundlagen </li></ul><ul><li>Dynamische Programmierung </li></ul><ul><li>Gradientenabstieg </li></ul><ul><li>EM/GEM-Algorithmus </li></ul><ul><li>Markov-Chain Monte-Carlo Methoden </li></ul><ul><li>Simulated Annealing </li></ul><ul><li>Genetische Algorithmen </li></ul><ul><ul><li>Proteinstrukturalignierung </li></ul></ul><ul><li>Zusammenfassung </li></ul>
  3. 3. Bayes‘sche Schlussfolgerung <ul><li>Modell M; Daten D; Wahrscheinlichkeiten P nach Bayes </li></ul><ul><li>Maximiere P(M|D) : A posteriori Wahrscheinlichkeit </li></ul><ul><li>P(D) : Beweis  Gleich bei unterschiedlichen Modellen </li></ul><ul><li>P(M) : A priori Wahrscheinlichkeit für das Modell </li></ul><ul><ul><li>Standardverteilungen, Einschränkungen, etc. </li></ul></ul><ul><li>P(D|M) : Wahrscheinlichkeit d. Daten unter d. Modell </li></ul><ul><li> Maximiere Likelihood! </li></ul>log P(M|D) = log P(D|M) + log P(M) - log P(D)
  4. 4. Modellbildung <ul><li>Bilde Modell M=M( w ) mit Parametern w </li></ul><ul><li>Berechne/Schätze Verteilung von P( w |D) </li></ul><ul><li>Finde Parameter w , so dass P( w |D) maximal </li></ul><ul><li>Bestimme Erwartungswerte für P( w |D) </li></ul><ul><ul><li>Kombination mehrerer Modelle M=M( w ) </li></ul></ul><ul><ul><li>z.B.: E( f ) = ∫ f ( w ) P( w |D) d w </li></ul></ul>
  5. 5. Dynamische Programmierung <ul><li>Ziel: Maximiere Likelihood P(D| w ) </li></ul><ul><li>Idee: „Divide & Conquer“, „Reuse“ </li></ul><ul><ul><li>Zerlege ein Problem in Teilprobleme </li></ul></ul><ul><ul><li>Löse Teilprobleme mit vorherigen Teillösungen </li></ul></ul><ul><ul><li>Setze Teillösungen zur Lösung zusammen </li></ul></ul><ul><li>Beispiele: </li></ul><ul><ul><li>Needleman-Wunsch, Smith-Waterman, ... </li></ul></ul>
  6. 6. Gradientenabstieg <ul><li>Ziel: Maximierung von P( w |D) bzw. P(D| w ) </li></ul><ul><li>Ansatz: Minimierung von f ( w ) = -log P( w |D) </li></ul><ul><li>Voraussetzung: f ist differenzierbar </li></ul><ul><li>w t : Parameterwerte zum Zeitpunkt t </li></ul><ul><li>η : Schrittweite, Lernrate </li></ul>
  7. 7. GA - Skizze
  8. 8. GA - Anwendung <ul><li>Iterative Anwendg.  Annäherung an Minima </li></ul><ul><ul><li>Konvergenzkriterium: | w t + 1 - w t | < ε </li></ul></ul><ul><li>Mehrfache Anwndg.  Globale Minima </li></ul><ul><ul><li>Variation über Startwerte w 0 , Lernrate η </li></ul></ul><ul><li>Verwendung: Neurale Netzwerke </li></ul><ul><ul><li>Backpropagation-Algorithmus </li></ul></ul><ul><ul><li>Einstellen der Gewichte </li></ul></ul>
  9. 9. GA - Beispiel <ul><li>Sei f ( w ) = ½ w ², also f ‘( w ) = w . </li></ul><ul><ul><li>Somit f ‘( w 0 ) = 0 für w 0 = 0. </li></ul></ul><ul><li>Setze η = 0,5 und w 0 = 2. </li></ul><ul><li>Also: w t + 1 = w t - 0,5 w t </li></ul>2 / 2 n ... 0,125 0,25 0,5 1 2 w t 0,125 4 ... ... 0,5 2 0,25 3 2 / 2 n n 1 1 / 0 ∆ w t
  10. 10. EM/GEM-Algorithmus <ul><li>Abk. f. (Generalized) Expectation Maximization </li></ul><ul><li>Anwendung bei: Versteckten Variablen H </li></ul><ul><ul><li>Fehlende oder nicht beobachtbare Daten </li></ul></ul><ul><ul><li>P(H|D, w ) = P(D, H| w ) P(D| w ) </li></ul></ul><ul><li>Verwendung in: Hidden Markov Modellen </li></ul><ul><ul><li>Baum-Welch-Algorithmus </li></ul></ul><ul><ul><li>Schätzung der Parameter </li></ul></ul>
  11. 11. EM – Prinzip I <ul><li>Ansatz: Maximierung von ( E : Erwartungswert) </li></ul><ul><li>Iteration über die Parameter w t , Zeitpunkt t </li></ul><ul><ul><li>E (expectation) : Berechne Verteilung Q* über H: </li></ul></ul><ul><ul><li>M (aximization) : Optimiere Parameter w t : </li></ul></ul>
  12. 12. EM - Skizze
  13. 13. EM – Freie Energie <ul><li>Definiere als Energie für die versteckten Variablen: </li></ul><ul><li>Für die Verteilung Q über H nach Boltzmann-Gibbs: </li></ul><ul><li>Für die freie Energie gilt: </li></ul>
  14. 14. EM – Prinzip II <ul><li>Umformulierung: </li></ul><ul><li>E : Berechne Boltzmann-Gibbs-Vert. Q*(H), </li></ul><ul><ul><li>so dass F ( w t - 1 , Q) minimal ist. </li></ul></ul><ul><li>M : Bestimme w t , </li></ul><ul><ul><li>so dass F ( w t , Q*) minimal ist. </li></ul></ul><ul><ul><li>Fixiere dabei Q*. </li></ul></ul>
  15. 15. EM – Zusammenfassung <ul><li>Minimierung der freien Energie: </li></ul><ul><ul><li>Abwechselnd: Q und w variieren </li></ul></ul><ul><ul><li>( w t , Q t )  ( w t , Q t + 1 )  ( w t + 1 , Q t + 1 )  ... </li></ul></ul><ul><li>EM-Algorithmus konvergiert gegen </li></ul><ul><ul><li>Lokales Minimum von - log P(D| w ) </li></ul></ul><ul><li>GEM-Algorithmus minimiert - log P(D| w ) </li></ul><ul><ul><li>Ohne zwingend ein Minimum zu finden! </li></ul></ul><ul><ul><li>Beispiel: Gradientenabstieg </li></ul></ul>
  16. 16. Markov-Chain Monte-Carlo Methoden <ul><li>Ziel: Berechne Erwartungswert v. P(x 1 , …, x n ) </li></ul><ul><ul><li>x i : Modellparameter, Versteckte Variablen, Daten </li></ul></ul><ul><li>Ansatz: Zwei Ideen </li></ul><ul><li>Monte Carlo : </li></ul><ul><li>Stichproben S t = (x 1 t , …, x n t ) erzeugt von </li></ul><ul><li>Markov-Kette mit Verteilung P(x 1 , …, x n ) </li></ul>
  17. 17. Markov-Ketten I <ul><li>System mit Zuständen S = {s 1 , s 2 , …, s |S| } </li></ul><ul><li>Folge von Zuständen: S 0 ,S 1 , …, S t , … (Zeitp. t ) </li></ul><ul><li>Variablen S t bilden Markov-Kette gdw. </li></ul><ul><ul><li>P(S t + 1 | S 0 , …, S t ) = P(S t + 1 | S t ) </li></ul></ul><ul><ul><li>Zukunft abh. v. Vergangenheit nur durch Gegenwart </li></ul></ul><ul><li>Markov-Kette determiniert durch </li></ul><ul><ul><li>Anfangsverteilung P(S 0 ) </li></ul></ul><ul><ul><li>Übergangswahrscheinlichkeiten: P t = P(S t+1 | S t ) </li></ul></ul>
  18. 18. Markov-Ketten II <ul><li>Stationäre ~: Übergangswahrscheinlich. konst. </li></ul><ul><ul><li>Übergangsmatrix: T = (t ij ), Wahrscheinlichkeit s j ->s i </li></ul></ul><ul><li>Stabile Verteilung: </li></ul><ul><ul><li>Wird nicht verlassen! </li></ul></ul><ul><li>Ergodische ~: Konvergieren stets in dieselbe Verteilung (  Gleichgewichtsverteilung) </li></ul><ul><li>Aufgabe: Finde Gleichgewichtsverteilung! </li></ul>
  19. 19. Gibbs-Sampling <ul><li>Gegeben: Bedingte Verteilung P(x i |x j : j ≠ i) </li></ul><ul><li>Iterative Auswahl der Variablen X i : </li></ul><ul><ul><li>Wähle x 1 t + 1 gemäß P(X 1 |x 2 t , x 3 t , ..., x n t ) </li></ul></ul><ul><ul><li>Wähle x 2 t + 1 gemäß P(X 2 |x 1 t + 1 , x 3 t , ..., x n t ) </li></ul></ul><ul><ul><li>... </li></ul></ul><ul><ul><li>Wähle x n t + 1 gemäß P(X n |x 1 t + 1 , x 2 t + 1 , ..., x n - 1 t ) </li></ul></ul>
  20. 20. Metropolis Algorithmus <ul><li>Ziel: Erzeuge Stichproben von P(s), s = (x 1 , ..., x n ) </li></ul><ul><li>Ansatz: Zwei Mengen von Hilfsverteilungen </li></ul><ul><ul><li>Q = (q ij ) : Selektionsverteilung, s j -> s i </li></ul></ul><ul><ul><li>R = (r ij ) : Akzeptanzverteilung, s j -> s i </li></ul></ul><ul><li>Methode: Iteration über die Zustände S t = s j : </li></ul><ul><ul><li>Wähle Zustand s i gemäß Verteilung q ij . </li></ul></ul><ul><ul><li>Akzeptiere Zustand s i gemäß Verteilung r ij . </li></ul></ul><ul><ul><li>S t + 1 = s i mit Wahrscheinlichkeit r ij . </li></ul></ul><ul><ul><li>S t + 1 = s j mit Wahrscheinlichkeit 1 - r ij . </li></ul></ul>
  21. 21. Metropolis - Verteilungen <ul><li>Für Q symmetrisch (q ij = q ji ) : </li></ul><ul><ul><li>Wähle für R: </li></ul></ul><ul><li>Für Q unsymmetrisch: </li></ul><ul><ul><li>Wähle für R: </li></ul></ul><ul><li>Für Übergangsmatrix t ij gilt folglich (Q sym.) : </li></ul><ul><li>Ausreichendes Kriterium für stabile Verteilung! </li></ul><ul><li>Gleichmäßige Verteilung für Q  Ergodizität </li></ul>
  22. 22. Metropolis - Energie <ul><li>P als Funktion der Energie: </li></ul><ul><li>Verteilung R umformuliert: </li></ul><ul><ul><li>Eliminierung von Z! </li></ul></ul><ul><li>Algorithmus umformuliert: </li></ul><ul><ul><li>Wähle Zustand s i gemäß Verteilung q ij . </li></ul></ul><ul><ul><li>E(s i ) ≤ E(s j ) : Akzeptiere s i E(s i ) > E(s j ) : Akzeptiere s i mit Wahrscheinlichkeit: </li></ul></ul>
  23. 23. Simulated Annealing <ul><li>Ziel: Minimiere Funktion f (x 1 , ..., x n ) </li></ul><ul><li>Ansatz: „Abkühlen“ von Funktionen </li></ul><ul><li>Ursprung: Langsames Abkühlen von Metallen </li></ul><ul><ul><li>Führt zu starken makroskopischen Eigenschaften </li></ul></ul><ul><ul><li>Auf Grund molekularer Zustände niedriger Energie. </li></ul></ul><ul><li>Idee: f als Funktion der Energie eines Systems </li></ul><ul><ul><li>Mit Zuständen s = (x 1 , ..., x n ) </li></ul></ul><ul><ul><li>Und für alle s : f (s) ≥ 0. </li></ul></ul>
  24. 24. Boltzmann-Gibbs-Verteilung <ul><li>System im Zustand s bei Temperatur T (k: Boltzmann): </li></ul><ul><li>Bei niedrigen Temperaturen dominieren die Zustände (Anzahl m) niedrigster Energie die Verteilung: </li></ul>
  25. 25. SA - Skizze
  26. 26. SA - Vorgehensweise <ul><li>Beginne mit hoher Temperatur T 0 . </li></ul><ul><li>Senke die Temperatur T t in Abh. v. t . </li></ul><ul><ul><li>Annealing Schedule </li></ul></ul><ul><li>Grundzustände treten in Vordergrund. </li></ul><ul><li>Annäherung an das Minima von f . </li></ul>
  27. 27. Annealing Schedule <ul><li>Logarithmisch: </li></ul><ul><ul><li>Sehr wahrscheinlich globales Minimum </li></ul></ul><ul><ul><li>Aber: Langsam! </li></ul></ul><ul><li>Für K = ∆ E /k: </li></ul><ul><ul><li>∆ E = E (s max ) – E (s min ) </li></ul></ul><ul><ul><li>Sicher globales Minimum! </li></ul></ul><ul><li>Geometrisch: </li></ul><ul><ul><li>Mit 0 < μ < 1 </li></ul></ul><ul><ul><li>Annäherung an globales Minimum </li></ul></ul>
  28. 28. Genetische Algorithmen <ul><li>Heuristische Suche: Suboptimale Lösungen </li></ul><ul><li>Ansatz: „Survival of the Fittest“: </li></ul><ul><ul><li>Zufällige Population  Stichproben d. Lösungen </li></ul></ul><ul><ul><li>Mehrfache Mutation  Optimierung m. Operatoren </li></ul></ul><ul><ul><li>und Selektion  Evaluierung mit Fitnessfunktion </li></ul></ul><ul><li>Maschinelles Lernen? </li></ul><ul><ul><li>Kein allg. Modell, sondern spezielle Lösung </li></ul></ul>
  29. 29. Proteinstrukturalignierung mittels Genetischem Algorithmus <ul><li>„ Protein Structure Alignment Using a Genetic Algorithm“, Joseph D. Szustakowski und Zhiping Weng, 1999 </li></ul><ul><li>KENOBI, Version 1.0: </li></ul><ul><ul><li>http:// zlab.bu.edu / zlab / publications / kenobi.pdf </li></ul></ul><ul><li>KENOBI, Version 2.0: </li></ul><ul><ul><li>http://zlab.bu.edu/k2/index.shtml </li></ul></ul><ul><li>K2SA: </li></ul><ul><ul><li>http:// zlab.bu.edu /k2sa/ </li></ul></ul>
  30. 30. Proteinstrukturalignierung <ul><li>Ziel: Räumliche Überlagerung der Reste </li></ul><ul><li>Zweck: Strukturelle Ähnlichkeit </li></ul><ul><ul><li> Funktionelle Ähnlichkeit </li></ul></ul><ul><ul><li> Evolutionäre Verwandtschaft </li></ul></ul><ul><li>Nutzen: Strukturvorhersage </li></ul><ul><ul><li>Konservierte Bereiche  Strukturmotive </li></ul></ul><ul><ul><li>Tests: „Gold Standard“ </li></ul></ul><ul><ul><ul><li>Tatsächliche vs. Vorhergesagte Struktur </li></ul></ul></ul>
  31. 31. KENOBI - Methode <ul><li>Phase: Genetischer Algorithmus </li></ul><ul><ul><li>Alignierung der Sekundärstrukturelemente </li></ul></ul><ul><ul><li>Verfeinerung des besten Alignments </li></ul></ul><ul><li>Phase: </li></ul><ul><ul><li>Überlagerung des Proteinrückgrats </li></ul></ul><ul><ul><li>Erweiterung des Alignments </li></ul></ul><ul><ul><li>Verfeinerung des Alignments </li></ul></ul>
  32. 32. Fitnessfunktion: Elastic Similarity Score I <ul><li>Intramolekulare Distanzen </li></ul><ul><ul><li>Distanzmatrizen d A , d B für Reste aus Protein A, B </li></ul></ul><ul><li>Summe über je zwei Paare i, j von Resten </li></ul><ul><ul><li>Ungepaarte Reste werden nicht berücksichtigt </li></ul></ul><ul><li>Für i = j: Konstanter Schwellenwert ( θ = 0,20) </li></ul><ul><li>Für i ≠ j: </li></ul>Envelope-Funktion *: Durchschnitt Abweichung
  33. 33. Fitnessfunktion: Elastic Similarity Score II <ul><li>Maximierung der Anzahl an Paaren </li></ul><ul><ul><li>von überlagerten Resten </li></ul></ul><ul><li>Minimierung der Distanzen </li></ul><ul><ul><li>zwischen den Paaren </li></ul></ul><ul><li>Beispiel: 1., 2. und 3. Rest von Protein A </li></ul><ul><li>gepaart mit 1., 2. und 3. Rest von Protein B </li></ul><ul><li> S ≈ 9 θ </li></ul>
  34. 34. 1. Phase: Genetischer Algorithmus <ul><li>Erzeuge eine Population von SSE-Alignments </li></ul><ul><li>Verändere die Alignments mit Operatoren: </li></ul><ul><ul><li>mutate, hop, swap und crossover </li></ul></ul><ul><li>Bewerte die veränderten Alignments (  ESS) und akzeptierte oder verwerfe Veränderungen </li></ul><ul><li>Falls Abbruchsbedingungen nicht erfüllt, Beginne wieder bei Schritt 2. </li></ul>
  35. 35. 1. Phase: Anfängliche Population <ul><li>Zufällige Erzeugung von 100 Alignments </li></ul><ul><li>SSE werden nach Typ (Helix, Strand) gepaart </li></ul><ul><li>Ggf. Auffüllen mit Nullelementen (  Padding) </li></ul><ul><li>Ggf. Stutzen der SSE (  Trimming) </li></ul><ul><li>Je zwei Paare von SSE bilden Dublette </li></ul><ul><li>High-scoring (  ESS) Dubletten bevorzugt </li></ul>
  36. 36. 1. Phase: Operatoren I <ul><li>mutate: 3% pro Paar </li></ul><ul><ul><li>SSE um eins verlängern, verkürzen oder verschieben </li></ul></ul><ul><ul><li>innerhalb von festen Grenzen. </li></ul></ul><ul><li>hop: 5% pro Alignment </li></ul><ul><ul><li>Zwei Paare vom selben Typ </li></ul></ul><ul><ul><li>werden zufällig gewählt </li></ul></ul><ul><ul><li>und vertauscht. </li></ul></ul><ul><ul><li>Ggf.: Trimming </li></ul></ul>
  37. 37. 1. Phase: Operatoren II <ul><li>swap: 5% pro Alignment </li></ul><ul><ul><li>Zwei Alignments werden zufällig gewählt </li></ul></ul><ul><ul><li>und sämtliche Paare eines Typs </li></ul></ul><ul><ul><li>werden getauscht. </li></ul></ul><ul><li>crossover: Alle Alignments </li></ul><ul><ul><li>Zufällige Zuweisung eines Partners. </li></ul></ul><ul><ul><li>Zufällige Bestimmung eines Crossover-Punktes </li></ul></ul><ul><ul><li>Austausch aller SSE jenseits des Punktes </li></ul></ul><ul><ul><li>Ggf.: Reparatur der Alignments </li></ul></ul>
  38. 38. 1. Phase: Fitness der Population <ul><li>Elastic Similarity Score (ESS) </li></ul><ul><ul><li>S‘ < S  Änderungen werden verworfen </li></ul></ul><ul><ul><li>S‘ ≥ S  Änderungen werden übernommen </li></ul></ul><ul><li>Außerdem wird berechnet: </li></ul><ul><ul><li>Durchschnittlicher Score </li></ul></ul><ul><ul><li>Bester Score </li></ul></ul><ul><ul><li>Liste der zehn besten Alignments </li></ul></ul>
  39. 39. 1. Phase: Abbruch des GA <ul><li>Vorgegebene Anzahl an Runden </li></ul><ul><li>Bester Score bleibt unverändert </li></ul><ul><ul><li>während 20 aufeinander folgenden Runden </li></ul></ul><ul><li>Durchschnittlicher Score = Bester Score </li></ul><ul><li>Auswahl des besten Alignments </li></ul>
  40. 40. 2. Phase: Erweiterung <ul><li>Überlagerung der Proteinstrukturen </li></ul><ul><ul><li>Minimale Distanz </li></ul></ul><ul><li>Suche im Proteinrückgrat </li></ul><ul><ul><li>nach Paaren von äquivalenten Resten </li></ul></ul><ul><ul><li>Besonders in non-SSE </li></ul></ul><ul><li>Verfeinerung des Alignments </li></ul>
  41. 41. KENOBI – Diskussion <ul><li>Einfache Anwendung  Keine Parameter </li></ul><ul><li>Schnelle Verarbeitung  Alignierung der SSE </li></ul><ul><li>Keine Alignierung von Proteinen </li></ul><ul><ul><li>Geringer Länge, ohne Sekundärstrukturelemente </li></ul></ul><ul><li>Ausschließlich α -Helices und β -Strands als SSE </li></ul>
  42. 42. Zusammenfassung <ul><li>Maximiere P(M|D) bzw. P(D|M) </li></ul><ul><ul><li>Minimiere -log P( w |D) bzw. -log P(D| w ) </li></ul></ul><ul><li>Maschinelles Lernen-Algorithmen </li></ul><ul><ul><li>Optimierungsprobleme </li></ul></ul><ul><li>Abhängigkeit von </li></ul><ul><ul><li>Modell M, Parameter w , Daten D, Unbekannten H </li></ul></ul><ul><li>Probleme: </li></ul><ul><ul><li>Lokale vs. Globale Maxima, Rauschen, Komplexität, ... </li></ul></ul><ul><li>Faktor Mensch  Auswahl von </li></ul><ul><ul><li>Trainingsmenge, Startparameter, Modell, ... </li></ul></ul>
  43. 43. Datenauswahl <ul><li>Datenmengen für </li></ul><ul><ul><li>Training : Lernphase </li></ul></ul><ul><ul><li>Validierung : Lernerfolg </li></ul></ul><ul><ul><li>Test : Gesamtperformance </li></ul></ul><ul><li>Verschiedene Trainingsmengen </li></ul><ul><ul><li>Verschiedene Modelle </li></ul></ul><ul><li>Ausgeglichenheit der Trainingsmenge bzgl. Klassen </li></ul><ul><ul><li>Balancierung: Keine Unter-/Überrepräsentierung </li></ul></ul><ul><ul><li>Gewichtung der Datenklassen nach Häufigkeit </li></ul></ul><ul><li>Online/Batch-Learning </li></ul>
  44. 44. Modellkomplexität <ul><li>Under-/Overfitting: Modell zu schwach/stark justiert </li></ul><ul><ul><li>Abh. v. Freiheitsgraden = Anzahl der Parameter </li></ul></ul><ul><li>Early-Stopping: E T fällt  E V steigt </li></ul><ul><ul><li>E T : Trainingsfehler, E V : Validierungsfehler </li></ul></ul><ul><ul><li>Schwellenwert für E T , Feste Anzahl an Trainingsrunden </li></ul></ul><ul><li>Ensemble: Kombination vieler Modelle </li></ul><ul><ul><li>E f (X) ≤ f E(X) (Jensen‘s Ungleichung) </li></ul></ul><ul><ul><li>f : konvexe Fehlerfunktion, X : Zufallsvariable (f. Ensemble) </li></ul></ul><ul><ul><li>Durchschnitt oder Gewichtung der Modelle </li></ul></ul>
  45. 45. Noch Fragen??? <ul><li>May the source be with you ... </li></ul>

×