Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
Machine Learning Algorithms Vom Gradientenabstieg über Monte Carlo bis hin zu Genetischen Algorithmen Martin Szugat (Marti...
Agenda <ul><li>Grundlagen </li></ul><ul><li>Dynamische Programmierung </li></ul><ul><li>Gradientenabstieg </li></ul><ul><l...
Bayes‘sche Schlussfolgerung <ul><li>Modell M; Daten D; Wahrscheinlichkeiten P nach Bayes </li></ul><ul><li>Maximiere P(M|D...
Modellbildung <ul><li>Bilde Modell M=M( w ) mit Parametern  w </li></ul><ul><li>Berechne/Schätze Verteilung von P( w |D) <...
Dynamische Programmierung <ul><li>Ziel: Maximiere Likelihood P(D| w ) </li></ul><ul><li>Idee: „Divide & Conquer“, „Reuse“ ...
Gradientenabstieg <ul><li>Ziel: Maximierung von P( w |D) bzw. P(D| w ) </li></ul><ul><li>Ansatz: Minimierung von  f  ( w )...
GA - Skizze
GA - Anwendung <ul><li>Iterative Anwendg.    Annäherung an Minima </li></ul><ul><ul><li>Konvergenzkriterium: | w  t + 1  ...
GA - Beispiel <ul><li>Sei  f  ( w ) = ½  w  ², also  f  ‘( w ) =  w . </li></ul><ul><ul><li>Somit  f  ‘( w 0 ) = 0 für  w ...
EM/GEM-Algorithmus <ul><li>Abk. f. (Generalized) Expectation Maximization </li></ul><ul><li>Anwendung bei: Versteckten Var...
EM – Prinzip I <ul><li>Ansatz: Maximierung von ( E  : Erwartungswert) </li></ul><ul><li>Iteration über die Parameter  w  t...
EM - Skizze
EM – Freie Energie <ul><li>Definiere als Energie für die versteckten Variablen:  </li></ul><ul><li>Für die Verteilung Q üb...
EM – Prinzip II <ul><li>Umformulierung: </li></ul><ul><li>E  : Berechne Boltzmann-Gibbs-Vert. Q*(H), </li></ul><ul><ul><li...
EM – Zusammenfassung <ul><li>Minimierung der freien Energie: </li></ul><ul><ul><li>Abwechselnd: Q und  w  variieren </li><...
Markov-Chain Monte-Carlo Methoden <ul><li>Ziel: Berechne Erwartungswert v. P(x 1 , …, x n ) </li></ul><ul><ul><li>x i  : M...
Markov-Ketten I <ul><li>System mit Zuständen S = {s 1 , s 2 , …, s |S| } </li></ul><ul><li>Folge von Zuständen: S 0 ,S 1 ,...
Markov-Ketten II <ul><li>Stationäre ~: Übergangswahrscheinlich. konst. </li></ul><ul><ul><li>Übergangsmatrix: T = (t ij ),...
Gibbs-Sampling <ul><li>Gegeben: Bedingte Verteilung P(x i |x j : j ≠ i) </li></ul><ul><li>Iterative Auswahl der Variablen ...
Metropolis Algorithmus <ul><li>Ziel: Erzeuge Stichproben von P(s), s = (x 1 , ..., x n ) </li></ul><ul><li>Ansatz: Zwei Me...
Metropolis - Verteilungen <ul><li>Für Q symmetrisch (q ij  = q ji ) :  </li></ul><ul><ul><li>Wähle für R: </li></ul></ul><...
Metropolis - Energie <ul><li>P als Funktion der Energie: </li></ul><ul><li>Verteilung R umformuliert: </li></ul><ul><ul><l...
Simulated Annealing <ul><li>Ziel: Minimiere Funktion  f  (x 1 , ..., x n ) </li></ul><ul><li>Ansatz: „Abkühlen“ von Funkti...
Boltzmann-Gibbs-Verteilung <ul><li>System im Zustand s bei Temperatur T (k: Boltzmann): </li></ul><ul><li>Bei niedrigen Te...
SA - Skizze
SA - Vorgehensweise <ul><li>Beginne mit hoher Temperatur T 0 . </li></ul><ul><li>Senke die Temperatur T  t  in Abh. v.  t ...
Annealing Schedule <ul><li>Logarithmisch: </li></ul><ul><ul><li>Sehr wahrscheinlich  globales Minimum </li></ul></ul><ul><...
Genetische Algorithmen <ul><li>Heuristische Suche: Suboptimale Lösungen </li></ul><ul><li>Ansatz: „Survival of the Fittest...
Proteinstrukturalignierung mittels Genetischem Algorithmus <ul><li>„ Protein Structure Alignment Using a Genetic Algorithm...
Proteinstrukturalignierung <ul><li>Ziel: Räumliche Überlagerung der Reste </li></ul><ul><li>Zweck: Strukturelle Ähnlichkei...
KENOBI - Methode <ul><li>Phase: Genetischer Algorithmus </li></ul><ul><ul><li>Alignierung der Sekundärstrukturelemente </l...
Fitnessfunktion:  Elastic Similarity Score I <ul><li>Intramolekulare Distanzen </li></ul><ul><ul><li>Distanzmatrizen d A ,...
Fitnessfunktion:  Elastic Similarity Score II <ul><li>Maximierung der Anzahl an Paaren  </li></ul><ul><ul><li>von überlage...
1. Phase: Genetischer Algorithmus <ul><li>Erzeuge eine Population von SSE-Alignments </li></ul><ul><li>Verändere die Align...
1. Phase: Anfängliche Population <ul><li>Zufällige Erzeugung von 100 Alignments </li></ul><ul><li>SSE werden nach Typ (Hel...
1. Phase: Operatoren I <ul><li>mutate: 3% pro Paar </li></ul><ul><ul><li>SSE um eins verlängern, verkürzen oder verschiebe...
1. Phase: Operatoren II <ul><li>swap: 5% pro Alignment </li></ul><ul><ul><li>Zwei Alignments werden zufällig gewählt </li>...
1. Phase: Fitness der Population <ul><li>Elastic Similarity Score (ESS) </li></ul><ul><ul><li>S‘ < S    Änderungen werden...
1. Phase: Abbruch des GA <ul><li>Vorgegebene Anzahl an Runden </li></ul><ul><li>Bester Score bleibt unverändert  </li></ul...
2. Phase: Erweiterung <ul><li>Überlagerung der Proteinstrukturen </li></ul><ul><ul><li>Minimale Distanz </li></ul></ul><ul...
KENOBI – Diskussion <ul><li>Einfache Anwendung    Keine Parameter </li></ul><ul><li>Schnelle Verarbeitung    Alignierung...
Zusammenfassung <ul><li>Maximiere P(M|D) bzw. P(D|M) </li></ul><ul><ul><li>Minimiere -log P( w |D) bzw. -log P(D| w )  </l...
Datenauswahl <ul><li>Datenmengen für  </li></ul><ul><ul><li>Training : Lernphase </li></ul></ul><ul><ul><li>Validierung : ...
Modellkomplexität <ul><li>Under-/Overfitting: Modell zu schwach/stark justiert </li></ul><ul><ul><li>Abh. v. Freiheitsgrad...
Noch Fragen??? <ul><li>May the source be with you ... </li></ul>
Nächste SlideShare
Wird geladen in …5
×

Maschinelles Lernen

3.486 Aufrufe

Veröffentlicht am

Einführung in verschiedene Algorithmen des Maschinellen Lernens

Veröffentlicht in: Technologie, Bildung
  • Als Erste(r) kommentieren

Maschinelles Lernen

  1. 1. Machine Learning Algorithms Vom Gradientenabstieg über Monte Carlo bis hin zu Genetischen Algorithmen Martin Szugat (Martin.Szugat@GMX.net) Hauptseminar: „The Machine Learning Approach“ Im WS 2003/04 bei Prof. Dr. Zimmer
  2. 2. Agenda <ul><li>Grundlagen </li></ul><ul><li>Dynamische Programmierung </li></ul><ul><li>Gradientenabstieg </li></ul><ul><li>EM/GEM-Algorithmus </li></ul><ul><li>Markov-Chain Monte-Carlo Methoden </li></ul><ul><li>Simulated Annealing </li></ul><ul><li>Genetische Algorithmen </li></ul><ul><ul><li>Proteinstrukturalignierung </li></ul></ul><ul><li>Zusammenfassung </li></ul>
  3. 3. Bayes‘sche Schlussfolgerung <ul><li>Modell M; Daten D; Wahrscheinlichkeiten P nach Bayes </li></ul><ul><li>Maximiere P(M|D) : A posteriori Wahrscheinlichkeit </li></ul><ul><li>P(D) : Beweis  Gleich bei unterschiedlichen Modellen </li></ul><ul><li>P(M) : A priori Wahrscheinlichkeit für das Modell </li></ul><ul><ul><li>Standardverteilungen, Einschränkungen, etc. </li></ul></ul><ul><li>P(D|M) : Wahrscheinlichkeit d. Daten unter d. Modell </li></ul><ul><li> Maximiere Likelihood! </li></ul>log P(M|D) = log P(D|M) + log P(M) - log P(D)
  4. 4. Modellbildung <ul><li>Bilde Modell M=M( w ) mit Parametern w </li></ul><ul><li>Berechne/Schätze Verteilung von P( w |D) </li></ul><ul><li>Finde Parameter w , so dass P( w |D) maximal </li></ul><ul><li>Bestimme Erwartungswerte für P( w |D) </li></ul><ul><ul><li>Kombination mehrerer Modelle M=M( w ) </li></ul></ul><ul><ul><li>z.B.: E( f ) = ∫ f ( w ) P( w |D) d w </li></ul></ul>
  5. 5. Dynamische Programmierung <ul><li>Ziel: Maximiere Likelihood P(D| w ) </li></ul><ul><li>Idee: „Divide & Conquer“, „Reuse“ </li></ul><ul><ul><li>Zerlege ein Problem in Teilprobleme </li></ul></ul><ul><ul><li>Löse Teilprobleme mit vorherigen Teillösungen </li></ul></ul><ul><ul><li>Setze Teillösungen zur Lösung zusammen </li></ul></ul><ul><li>Beispiele: </li></ul><ul><ul><li>Needleman-Wunsch, Smith-Waterman, ... </li></ul></ul>
  6. 6. Gradientenabstieg <ul><li>Ziel: Maximierung von P( w |D) bzw. P(D| w ) </li></ul><ul><li>Ansatz: Minimierung von f ( w ) = -log P( w |D) </li></ul><ul><li>Voraussetzung: f ist differenzierbar </li></ul><ul><li>w t : Parameterwerte zum Zeitpunkt t </li></ul><ul><li>η : Schrittweite, Lernrate </li></ul>
  7. 7. GA - Skizze
  8. 8. GA - Anwendung <ul><li>Iterative Anwendg.  Annäherung an Minima </li></ul><ul><ul><li>Konvergenzkriterium: | w t + 1 - w t | < ε </li></ul></ul><ul><li>Mehrfache Anwndg.  Globale Minima </li></ul><ul><ul><li>Variation über Startwerte w 0 , Lernrate η </li></ul></ul><ul><li>Verwendung: Neurale Netzwerke </li></ul><ul><ul><li>Backpropagation-Algorithmus </li></ul></ul><ul><ul><li>Einstellen der Gewichte </li></ul></ul>
  9. 9. GA - Beispiel <ul><li>Sei f ( w ) = ½ w ², also f ‘( w ) = w . </li></ul><ul><ul><li>Somit f ‘( w 0 ) = 0 für w 0 = 0. </li></ul></ul><ul><li>Setze η = 0,5 und w 0 = 2. </li></ul><ul><li>Also: w t + 1 = w t - 0,5 w t </li></ul>2 / 2 n ... 0,125 0,25 0,5 1 2 w t 0,125 4 ... ... 0,5 2 0,25 3 2 / 2 n n 1 1 / 0 ∆ w t
  10. 10. EM/GEM-Algorithmus <ul><li>Abk. f. (Generalized) Expectation Maximization </li></ul><ul><li>Anwendung bei: Versteckten Variablen H </li></ul><ul><ul><li>Fehlende oder nicht beobachtbare Daten </li></ul></ul><ul><ul><li>P(H|D, w ) = P(D, H| w ) P(D| w ) </li></ul></ul><ul><li>Verwendung in: Hidden Markov Modellen </li></ul><ul><ul><li>Baum-Welch-Algorithmus </li></ul></ul><ul><ul><li>Schätzung der Parameter </li></ul></ul>
  11. 11. EM – Prinzip I <ul><li>Ansatz: Maximierung von ( E : Erwartungswert) </li></ul><ul><li>Iteration über die Parameter w t , Zeitpunkt t </li></ul><ul><ul><li>E (expectation) : Berechne Verteilung Q* über H: </li></ul></ul><ul><ul><li>M (aximization) : Optimiere Parameter w t : </li></ul></ul>
  12. 12. EM - Skizze
  13. 13. EM – Freie Energie <ul><li>Definiere als Energie für die versteckten Variablen: </li></ul><ul><li>Für die Verteilung Q über H nach Boltzmann-Gibbs: </li></ul><ul><li>Für die freie Energie gilt: </li></ul>
  14. 14. EM – Prinzip II <ul><li>Umformulierung: </li></ul><ul><li>E : Berechne Boltzmann-Gibbs-Vert. Q*(H), </li></ul><ul><ul><li>so dass F ( w t - 1 , Q) minimal ist. </li></ul></ul><ul><li>M : Bestimme w t , </li></ul><ul><ul><li>so dass F ( w t , Q*) minimal ist. </li></ul></ul><ul><ul><li>Fixiere dabei Q*. </li></ul></ul>
  15. 15. EM – Zusammenfassung <ul><li>Minimierung der freien Energie: </li></ul><ul><ul><li>Abwechselnd: Q und w variieren </li></ul></ul><ul><ul><li>( w t , Q t )  ( w t , Q t + 1 )  ( w t + 1 , Q t + 1 )  ... </li></ul></ul><ul><li>EM-Algorithmus konvergiert gegen </li></ul><ul><ul><li>Lokales Minimum von - log P(D| w ) </li></ul></ul><ul><li>GEM-Algorithmus minimiert - log P(D| w ) </li></ul><ul><ul><li>Ohne zwingend ein Minimum zu finden! </li></ul></ul><ul><ul><li>Beispiel: Gradientenabstieg </li></ul></ul>
  16. 16. Markov-Chain Monte-Carlo Methoden <ul><li>Ziel: Berechne Erwartungswert v. P(x 1 , …, x n ) </li></ul><ul><ul><li>x i : Modellparameter, Versteckte Variablen, Daten </li></ul></ul><ul><li>Ansatz: Zwei Ideen </li></ul><ul><li>Monte Carlo : </li></ul><ul><li>Stichproben S t = (x 1 t , …, x n t ) erzeugt von </li></ul><ul><li>Markov-Kette mit Verteilung P(x 1 , …, x n ) </li></ul>
  17. 17. Markov-Ketten I <ul><li>System mit Zuständen S = {s 1 , s 2 , …, s |S| } </li></ul><ul><li>Folge von Zuständen: S 0 ,S 1 , …, S t , … (Zeitp. t ) </li></ul><ul><li>Variablen S t bilden Markov-Kette gdw. </li></ul><ul><ul><li>P(S t + 1 | S 0 , …, S t ) = P(S t + 1 | S t ) </li></ul></ul><ul><ul><li>Zukunft abh. v. Vergangenheit nur durch Gegenwart </li></ul></ul><ul><li>Markov-Kette determiniert durch </li></ul><ul><ul><li>Anfangsverteilung P(S 0 ) </li></ul></ul><ul><ul><li>Übergangswahrscheinlichkeiten: P t = P(S t+1 | S t ) </li></ul></ul>
  18. 18. Markov-Ketten II <ul><li>Stationäre ~: Übergangswahrscheinlich. konst. </li></ul><ul><ul><li>Übergangsmatrix: T = (t ij ), Wahrscheinlichkeit s j ->s i </li></ul></ul><ul><li>Stabile Verteilung: </li></ul><ul><ul><li>Wird nicht verlassen! </li></ul></ul><ul><li>Ergodische ~: Konvergieren stets in dieselbe Verteilung (  Gleichgewichtsverteilung) </li></ul><ul><li>Aufgabe: Finde Gleichgewichtsverteilung! </li></ul>
  19. 19. Gibbs-Sampling <ul><li>Gegeben: Bedingte Verteilung P(x i |x j : j ≠ i) </li></ul><ul><li>Iterative Auswahl der Variablen X i : </li></ul><ul><ul><li>Wähle x 1 t + 1 gemäß P(X 1 |x 2 t , x 3 t , ..., x n t ) </li></ul></ul><ul><ul><li>Wähle x 2 t + 1 gemäß P(X 2 |x 1 t + 1 , x 3 t , ..., x n t ) </li></ul></ul><ul><ul><li>... </li></ul></ul><ul><ul><li>Wähle x n t + 1 gemäß P(X n |x 1 t + 1 , x 2 t + 1 , ..., x n - 1 t ) </li></ul></ul>
  20. 20. Metropolis Algorithmus <ul><li>Ziel: Erzeuge Stichproben von P(s), s = (x 1 , ..., x n ) </li></ul><ul><li>Ansatz: Zwei Mengen von Hilfsverteilungen </li></ul><ul><ul><li>Q = (q ij ) : Selektionsverteilung, s j -> s i </li></ul></ul><ul><ul><li>R = (r ij ) : Akzeptanzverteilung, s j -> s i </li></ul></ul><ul><li>Methode: Iteration über die Zustände S t = s j : </li></ul><ul><ul><li>Wähle Zustand s i gemäß Verteilung q ij . </li></ul></ul><ul><ul><li>Akzeptiere Zustand s i gemäß Verteilung r ij . </li></ul></ul><ul><ul><li>S t + 1 = s i mit Wahrscheinlichkeit r ij . </li></ul></ul><ul><ul><li>S t + 1 = s j mit Wahrscheinlichkeit 1 - r ij . </li></ul></ul>
  21. 21. Metropolis - Verteilungen <ul><li>Für Q symmetrisch (q ij = q ji ) : </li></ul><ul><ul><li>Wähle für R: </li></ul></ul><ul><li>Für Q unsymmetrisch: </li></ul><ul><ul><li>Wähle für R: </li></ul></ul><ul><li>Für Übergangsmatrix t ij gilt folglich (Q sym.) : </li></ul><ul><li>Ausreichendes Kriterium für stabile Verteilung! </li></ul><ul><li>Gleichmäßige Verteilung für Q  Ergodizität </li></ul>
  22. 22. Metropolis - Energie <ul><li>P als Funktion der Energie: </li></ul><ul><li>Verteilung R umformuliert: </li></ul><ul><ul><li>Eliminierung von Z! </li></ul></ul><ul><li>Algorithmus umformuliert: </li></ul><ul><ul><li>Wähle Zustand s i gemäß Verteilung q ij . </li></ul></ul><ul><ul><li>E(s i ) ≤ E(s j ) : Akzeptiere s i E(s i ) > E(s j ) : Akzeptiere s i mit Wahrscheinlichkeit: </li></ul></ul>
  23. 23. Simulated Annealing <ul><li>Ziel: Minimiere Funktion f (x 1 , ..., x n ) </li></ul><ul><li>Ansatz: „Abkühlen“ von Funktionen </li></ul><ul><li>Ursprung: Langsames Abkühlen von Metallen </li></ul><ul><ul><li>Führt zu starken makroskopischen Eigenschaften </li></ul></ul><ul><ul><li>Auf Grund molekularer Zustände niedriger Energie. </li></ul></ul><ul><li>Idee: f als Funktion der Energie eines Systems </li></ul><ul><ul><li>Mit Zuständen s = (x 1 , ..., x n ) </li></ul></ul><ul><ul><li>Und für alle s : f (s) ≥ 0. </li></ul></ul>
  24. 24. Boltzmann-Gibbs-Verteilung <ul><li>System im Zustand s bei Temperatur T (k: Boltzmann): </li></ul><ul><li>Bei niedrigen Temperaturen dominieren die Zustände (Anzahl m) niedrigster Energie die Verteilung: </li></ul>
  25. 25. SA - Skizze
  26. 26. SA - Vorgehensweise <ul><li>Beginne mit hoher Temperatur T 0 . </li></ul><ul><li>Senke die Temperatur T t in Abh. v. t . </li></ul><ul><ul><li>Annealing Schedule </li></ul></ul><ul><li>Grundzustände treten in Vordergrund. </li></ul><ul><li>Annäherung an das Minima von f . </li></ul>
  27. 27. Annealing Schedule <ul><li>Logarithmisch: </li></ul><ul><ul><li>Sehr wahrscheinlich globales Minimum </li></ul></ul><ul><ul><li>Aber: Langsam! </li></ul></ul><ul><li>Für K = ∆ E /k: </li></ul><ul><ul><li>∆ E = E (s max ) – E (s min ) </li></ul></ul><ul><ul><li>Sicher globales Minimum! </li></ul></ul><ul><li>Geometrisch: </li></ul><ul><ul><li>Mit 0 < μ < 1 </li></ul></ul><ul><ul><li>Annäherung an globales Minimum </li></ul></ul>
  28. 28. Genetische Algorithmen <ul><li>Heuristische Suche: Suboptimale Lösungen </li></ul><ul><li>Ansatz: „Survival of the Fittest“: </li></ul><ul><ul><li>Zufällige Population  Stichproben d. Lösungen </li></ul></ul><ul><ul><li>Mehrfache Mutation  Optimierung m. Operatoren </li></ul></ul><ul><ul><li>und Selektion  Evaluierung mit Fitnessfunktion </li></ul></ul><ul><li>Maschinelles Lernen? </li></ul><ul><ul><li>Kein allg. Modell, sondern spezielle Lösung </li></ul></ul>
  29. 29. Proteinstrukturalignierung mittels Genetischem Algorithmus <ul><li>„ Protein Structure Alignment Using a Genetic Algorithm“, Joseph D. Szustakowski und Zhiping Weng, 1999 </li></ul><ul><li>KENOBI, Version 1.0: </li></ul><ul><ul><li>http:// zlab.bu.edu / zlab / publications / kenobi.pdf </li></ul></ul><ul><li>KENOBI, Version 2.0: </li></ul><ul><ul><li>http://zlab.bu.edu/k2/index.shtml </li></ul></ul><ul><li>K2SA: </li></ul><ul><ul><li>http:// zlab.bu.edu /k2sa/ </li></ul></ul>
  30. 30. Proteinstrukturalignierung <ul><li>Ziel: Räumliche Überlagerung der Reste </li></ul><ul><li>Zweck: Strukturelle Ähnlichkeit </li></ul><ul><ul><li> Funktionelle Ähnlichkeit </li></ul></ul><ul><ul><li> Evolutionäre Verwandtschaft </li></ul></ul><ul><li>Nutzen: Strukturvorhersage </li></ul><ul><ul><li>Konservierte Bereiche  Strukturmotive </li></ul></ul><ul><ul><li>Tests: „Gold Standard“ </li></ul></ul><ul><ul><ul><li>Tatsächliche vs. Vorhergesagte Struktur </li></ul></ul></ul>
  31. 31. KENOBI - Methode <ul><li>Phase: Genetischer Algorithmus </li></ul><ul><ul><li>Alignierung der Sekundärstrukturelemente </li></ul></ul><ul><ul><li>Verfeinerung des besten Alignments </li></ul></ul><ul><li>Phase: </li></ul><ul><ul><li>Überlagerung des Proteinrückgrats </li></ul></ul><ul><ul><li>Erweiterung des Alignments </li></ul></ul><ul><ul><li>Verfeinerung des Alignments </li></ul></ul>
  32. 32. Fitnessfunktion: Elastic Similarity Score I <ul><li>Intramolekulare Distanzen </li></ul><ul><ul><li>Distanzmatrizen d A , d B für Reste aus Protein A, B </li></ul></ul><ul><li>Summe über je zwei Paare i, j von Resten </li></ul><ul><ul><li>Ungepaarte Reste werden nicht berücksichtigt </li></ul></ul><ul><li>Für i = j: Konstanter Schwellenwert ( θ = 0,20) </li></ul><ul><li>Für i ≠ j: </li></ul>Envelope-Funktion *: Durchschnitt Abweichung
  33. 33. Fitnessfunktion: Elastic Similarity Score II <ul><li>Maximierung der Anzahl an Paaren </li></ul><ul><ul><li>von überlagerten Resten </li></ul></ul><ul><li>Minimierung der Distanzen </li></ul><ul><ul><li>zwischen den Paaren </li></ul></ul><ul><li>Beispiel: 1., 2. und 3. Rest von Protein A </li></ul><ul><li>gepaart mit 1., 2. und 3. Rest von Protein B </li></ul><ul><li> S ≈ 9 θ </li></ul>
  34. 34. 1. Phase: Genetischer Algorithmus <ul><li>Erzeuge eine Population von SSE-Alignments </li></ul><ul><li>Verändere die Alignments mit Operatoren: </li></ul><ul><ul><li>mutate, hop, swap und crossover </li></ul></ul><ul><li>Bewerte die veränderten Alignments (  ESS) und akzeptierte oder verwerfe Veränderungen </li></ul><ul><li>Falls Abbruchsbedingungen nicht erfüllt, Beginne wieder bei Schritt 2. </li></ul>
  35. 35. 1. Phase: Anfängliche Population <ul><li>Zufällige Erzeugung von 100 Alignments </li></ul><ul><li>SSE werden nach Typ (Helix, Strand) gepaart </li></ul><ul><li>Ggf. Auffüllen mit Nullelementen (  Padding) </li></ul><ul><li>Ggf. Stutzen der SSE (  Trimming) </li></ul><ul><li>Je zwei Paare von SSE bilden Dublette </li></ul><ul><li>High-scoring (  ESS) Dubletten bevorzugt </li></ul>
  36. 36. 1. Phase: Operatoren I <ul><li>mutate: 3% pro Paar </li></ul><ul><ul><li>SSE um eins verlängern, verkürzen oder verschieben </li></ul></ul><ul><ul><li>innerhalb von festen Grenzen. </li></ul></ul><ul><li>hop: 5% pro Alignment </li></ul><ul><ul><li>Zwei Paare vom selben Typ </li></ul></ul><ul><ul><li>werden zufällig gewählt </li></ul></ul><ul><ul><li>und vertauscht. </li></ul></ul><ul><ul><li>Ggf.: Trimming </li></ul></ul>
  37. 37. 1. Phase: Operatoren II <ul><li>swap: 5% pro Alignment </li></ul><ul><ul><li>Zwei Alignments werden zufällig gewählt </li></ul></ul><ul><ul><li>und sämtliche Paare eines Typs </li></ul></ul><ul><ul><li>werden getauscht. </li></ul></ul><ul><li>crossover: Alle Alignments </li></ul><ul><ul><li>Zufällige Zuweisung eines Partners. </li></ul></ul><ul><ul><li>Zufällige Bestimmung eines Crossover-Punktes </li></ul></ul><ul><ul><li>Austausch aller SSE jenseits des Punktes </li></ul></ul><ul><ul><li>Ggf.: Reparatur der Alignments </li></ul></ul>
  38. 38. 1. Phase: Fitness der Population <ul><li>Elastic Similarity Score (ESS) </li></ul><ul><ul><li>S‘ < S  Änderungen werden verworfen </li></ul></ul><ul><ul><li>S‘ ≥ S  Änderungen werden übernommen </li></ul></ul><ul><li>Außerdem wird berechnet: </li></ul><ul><ul><li>Durchschnittlicher Score </li></ul></ul><ul><ul><li>Bester Score </li></ul></ul><ul><ul><li>Liste der zehn besten Alignments </li></ul></ul>
  39. 39. 1. Phase: Abbruch des GA <ul><li>Vorgegebene Anzahl an Runden </li></ul><ul><li>Bester Score bleibt unverändert </li></ul><ul><ul><li>während 20 aufeinander folgenden Runden </li></ul></ul><ul><li>Durchschnittlicher Score = Bester Score </li></ul><ul><li>Auswahl des besten Alignments </li></ul>
  40. 40. 2. Phase: Erweiterung <ul><li>Überlagerung der Proteinstrukturen </li></ul><ul><ul><li>Minimale Distanz </li></ul></ul><ul><li>Suche im Proteinrückgrat </li></ul><ul><ul><li>nach Paaren von äquivalenten Resten </li></ul></ul><ul><ul><li>Besonders in non-SSE </li></ul></ul><ul><li>Verfeinerung des Alignments </li></ul>
  41. 41. KENOBI – Diskussion <ul><li>Einfache Anwendung  Keine Parameter </li></ul><ul><li>Schnelle Verarbeitung  Alignierung der SSE </li></ul><ul><li>Keine Alignierung von Proteinen </li></ul><ul><ul><li>Geringer Länge, ohne Sekundärstrukturelemente </li></ul></ul><ul><li>Ausschließlich α -Helices und β -Strands als SSE </li></ul>
  42. 42. Zusammenfassung <ul><li>Maximiere P(M|D) bzw. P(D|M) </li></ul><ul><ul><li>Minimiere -log P( w |D) bzw. -log P(D| w ) </li></ul></ul><ul><li>Maschinelles Lernen-Algorithmen </li></ul><ul><ul><li>Optimierungsprobleme </li></ul></ul><ul><li>Abhängigkeit von </li></ul><ul><ul><li>Modell M, Parameter w , Daten D, Unbekannten H </li></ul></ul><ul><li>Probleme: </li></ul><ul><ul><li>Lokale vs. Globale Maxima, Rauschen, Komplexität, ... </li></ul></ul><ul><li>Faktor Mensch  Auswahl von </li></ul><ul><ul><li>Trainingsmenge, Startparameter, Modell, ... </li></ul></ul>
  43. 43. Datenauswahl <ul><li>Datenmengen für </li></ul><ul><ul><li>Training : Lernphase </li></ul></ul><ul><ul><li>Validierung : Lernerfolg </li></ul></ul><ul><ul><li>Test : Gesamtperformance </li></ul></ul><ul><li>Verschiedene Trainingsmengen </li></ul><ul><ul><li>Verschiedene Modelle </li></ul></ul><ul><li>Ausgeglichenheit der Trainingsmenge bzgl. Klassen </li></ul><ul><ul><li>Balancierung: Keine Unter-/Überrepräsentierung </li></ul></ul><ul><ul><li>Gewichtung der Datenklassen nach Häufigkeit </li></ul></ul><ul><li>Online/Batch-Learning </li></ul>
  44. 44. Modellkomplexität <ul><li>Under-/Overfitting: Modell zu schwach/stark justiert </li></ul><ul><ul><li>Abh. v. Freiheitsgraden = Anzahl der Parameter </li></ul></ul><ul><li>Early-Stopping: E T fällt  E V steigt </li></ul><ul><ul><li>E T : Trainingsfehler, E V : Validierungsfehler </li></ul></ul><ul><ul><li>Schwellenwert für E T , Feste Anzahl an Trainingsrunden </li></ul></ul><ul><li>Ensemble: Kombination vieler Modelle </li></ul><ul><ul><li>E f (X) ≤ f E(X) (Jensen‘s Ungleichung) </li></ul></ul><ul><ul><li>f : konvexe Fehlerfunktion, X : Zufallsvariable (f. Ensemble) </li></ul></ul><ul><ul><li>Durchschnitt oder Gewichtung der Modelle </li></ul></ul>
  45. 45. Noch Fragen??? <ul><li>May the source be with you ... </li></ul>

×