Weitere ähnliche Inhalte Mehr von Frank Oellien (9) Algorithmen und Applikationen zur interaktiven Visualisierung und visuellen Data Mining chemiespezifischer Datensätze1. Algorithmen und Applikationen zur
interaktiven Visualisierung und
zum visuellen Data Mining
chemiespezifischer Datensätze
Frank Oellien
Intervet Innovation GmbH
D-55270 Schwabenheim
Computer Chemie Centrum
D-91052 Erlangen
© Oellien, Intervet Innovation GmbH 2003
BioChemInformatics
2. Inhalt
• Das ChemVis-Projekt
• Visualisierung chemischer Datenobjekte
• Visual Data Mining in der Chemie
– Problemstellung
– InfVis-Applikation
– Beispiele
– Ausblick
© Oellien, Intervet Innovation GmbH 2003
BioChemInformatics
3. Interaktive Computergraphik
in der Chemie
„Neben der Bearbeitung komplexer numerischer Probleme ist es vor
allem die farbgraphische Umsetzung der Ergebnisse, die der
menschlichen Fähigkeit, Bilder leichter und schneller zu erfassen als
Texte und Zahlenkolonnen, überaus entgegenkommt.“
Molecular Modelling: „...die Berechnung, Darstellung und Bearbeitung
von realistischen, dreidimensionalen Molekülstrukturen und ihren
phsikochemischen Eigenschaften.“ Erst möglich durch komfortable,
leistungsfähige interaktive Computergraphiksysteme.
„Wirkstoffdesign“; Böhm, Klebe, Kubinyi
„Ein Bild sagt mehr als Tausend Worte!“
Internationales Sprichwort
© Oellien, Intervet Innovation GmbH 2003
BioChemInformatics
4. ChemVis Projekt
Interdiziplinäres DFG-Projekt (V3D2):
Computer-Chemie-Centrum,
Universität Erlangen-Nürnberg
Visualisierung und Interaktive Systeme
Universität Stuttgart
Ziel: Entwicklung von Technologien zur
Einbindung von interaktiven, chemischen
Repräsentationen in digitale Dokumente
http://www2.chemie.uni-erlangen.de/ChemVis/
© Oellien, Intervet Innovation GmbH 2003
BioChemInformatics
5. Inhalt
• Das ChemVis-Projekt
• Visualisierung chemischer Datenobjekte
• Visual Data Mining in der Chemie
– Problemstellung
– InfVis-Applikation
– Beispiele
– Ausblick
© Oellien, Intervet Innovation GmbH 2003
BioChemInformatics
6. Visualisierung chemischer Datenobjekte
OH
H
H
H
O
Problem:
• Vielzahl nicht-kompatibler Standalone-Programme
• Eingeschränkter Informationsfluss
• Eingeschränkte Einsicht in Daten und Zusammenhänge
Ziel: Portable, sich an Internetstandards orientierende
Systeme, die eine Einbettung dynamischer
Visualisierungen in digitale Dokumente erlauben.
© Oellien, Intervet Innovation GmbH 2003
BioChemInformatics
7. Problematik der Web-basierten
Wissenschaftlichen Visualisierung
Visualisierung ist essentiell aber auch
poblematisch:
• unterschiedliche Plattformen (PC, SGI, ...)
• unterschiedliche Graphikhardware
• unterschiedliche HW-Generationen (Alter)
• unterschiedliche Betriebssysteme
© Oellien, Intervet Innovation GmbH 2003
BioChemInformatics
10. Interaktive Visualisierung von
Molekülorbitalen - OrbVis I
Ziel: Vereinfachte Zugänglichkeit zur Quantenchemie
• Existierende Plattform-unabhängige
Techniken nutzen
• Übertragung chemischer Daten
Keine Volumendaten !
• Chemisches Wissen im Applet
→ Client-seitiger Ansatz
(Graphikkarten, Interaktionsrate)
© Oellien, Intervet Innovation GmbH 2003
BioChemInformatics
13. Inhalt
• Das ChemVis-Projekt
• Visualisierung chemischer Datenobjekte
• Visual Data Mining in der Chemie
– Problemstellung
– InfVis-Applikation
– Beispiele
– Ausblick
© Oellien, Intervet Innovation GmbH 2003
BioChemInformatics
14. Daten in der Chemie
18000000
16000000
14000000
12000000
10000000
8000000
6000000
4000000
2000000
Merck Katalog
Synopsys PG
ACX
NCI DTP
ChemInform
Spresi
Beilstein
CAS
ChemCodes
0
© Oellien, Intervet Innovation GmbH 2003
BioChemInformatics
15. Multi-variate und multi-dimensionale
numerische Datensätze
Änderung der Chemischen Synthesetechnologie
• Neue Technologien (HTS, kombinatorische Synthese)
→ Experimente generieren Terabytes an Daten/Jahr
• Entwicklung von Datamining- und Visualisierungs-Tools
konnte mit dieser Entwicklung nicht Schritt halten
• Ernster Engpass in der chemischen Forschung !
→ Bedarf an Applikationen zum interaktiven Datamining
und zur Informationsvisualisierung sind notwendig
© Oellien, Intervet Innovation GmbH 2003
BioChemInformatics
16. Visual Data Mining
Problem:
• Informationsflut
• Multidimensionalität
• inhärentes Wissen bleibt verborgen
• Klassische Data Mining-Ansätze
→ „Black Box“- und Experten-Systeme
Ziel:
• Nutzen der natürlichen Fähigkeiten des visuellen Cortex
• Interaktives Data Mining (Expertenwissen integrieren)
• Intuitiv und daher bedienbar für „Jedermann“
© Oellien, Intervet Innovation GmbH 2003
BioChemInformatics
20. Java/Java3D InfVis Applikation
- Tool-Fenster
Dynamische Filter-Tools
Selektions-Tools
Detailinformationen
© Oellien, Intervet Innovation GmbH 2003
BioChemInformatics
22. ChemCodes Reaktionsdatenbank I
• Umsetzungen der 100 wichtigsten FGs ~ 75% der Chemie
• 100 Standardreaktionen gleichfalls >75% der Chemie
• Grenzen der Standardreaktionen ermitteln
• Aufklärung der FG Kompatibilität
• Regeln und Vorhersagen zu generieren
• Ziel: Umfassende, globale Vermessung des
chemischen Reaktivitätsraums
© Oellien, Intervet Innovation GmbH 2003
BioChemInformatics
23. Beispiel I: Reaktionsoptimierung
• Aufgabe:
Optimierung einer Reaktion auf > 95% Ausbeute
• 7-dimensionaler Raum:
Reagenz, Zeit,
Lösungsmittel,
Temperatur,
Stöchiometrie,
Reagenzienreihenfolge,
FG-Kompatibilität
© Oellien, Intervet Innovation GmbH 2003
BioChemInformatics
28. Beispiel III: Leitstruktursuche
• Initiiert im April 1990
(modifiziert 1994)
• ~ 250.000 Verbindungen
• 41.000 mit anti-tumor
Screening-Daten
• GI50, TGI, LC50
• Zahlreiche DM-Ansätze
© Oellien, Intervet Innovation GmbH 2003
BioChemInformatics
29. Beispiel III: Leitstruktursuche
COMPARE
• nur Vergleich von 2
Verbindungen
• Ähnlichkeitsvergleich
hinsichtlich der
biologischen Aktivität
• Keine
Vergleichsmöglichkeiten
mit anderen
Verbindungen
COMPARE-Applikation des
Drug Therapeutic Programs, NCI, NIH
© Oellien, Intervet Innovation GmbH 2003
BioChemInformatics
32. NCI Screening Data 3D Miner I
© Oellien, Intervet Innovation GmbH 2003
BioChemInformatics
33. NCI Screening Data 3D Miner II
© Oellien, Intervet Innovation GmbH 2003
BioChemInformatics
34. Ausblick: Volumen-basierte
Informationsvisualisierung
Datensätze mit Millionen von Datenpunkten
Glyph-basierte Ansätze
• produzieren Millionen von
geometrischen Primitiven
• interaktive Visualisierung
nicht möglich
Volumen-basierte Ansätze
• können eine große Anzahl
von Datenpunkten visualisieren
• interaktive Visualisierung durch
Nutzung von moderner Grafikhardware
© Oellien, Intervet Innovation GmbH 2003
BioChemInformatics
35. Danksagung
• Prof. Johann Gasteiger
Computer-Chemie-Centrum
Universität Erlangen-Nürnberg
C
3
• Prof. Thomas Ertl, Dr. Klaus Engel
Visualisierung und interaktive Systeme
Universität Stuttgart
• Dr. Wolf-Dietrich Ihlenfeldt,
Dr. Patrick Kiser, Dr. Gary Eichenbaum
ChemCodes Inc.
• Marc Nicklaus
Laboratory of Medicinal Chemistry
NCI, NIH
• Deutsche Forschungsgemeinschaft
© Oellien, Intervet Innovation GmbH 2003
BioChemInformatics