Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
PubChemQCプロジェクト:
分子データベース構築と機械学習
による電子構造の推定
中田真秀1 (NAKATA Maho)
島崎智実2 (SHIMAZAKI Tomomi)
1 ACCC RIKEN, 2 AICS RIKEN
2017/9...
背景
• 解決の難しい社会問題
地球温暖化、環境汚染問題、エネルギー問題、創薬、食糧問題など
• 化学はこのような問題の解決に重要な役割を果た
すだろう
• 量子化学/計算化学の立場から
– 大量の量子化学計算+データベース構築+クエリ環境構築...
材料は全て揃っている
• 基礎理論は大体ok
– “the fundamental laws necessary for the
mathematical treatment of a large part of physics
and the...
主たる結果
• http://pubchemqc.riken.jp/ PubChemに掲載され
ている分子のうち400万分子程度の構造最適化
済input/outputファイルを提供
• 上記結果を用いた機械学習に依るSMILES表記
からHO...
データベースの種類
• PubChem: 90,000,000 分子。アメリカNIHが作成。 著作
権フリー、キュレーションが弱い (カタログなどから取っ
ている)、ネットからダウンロード可能
• ChemSpider : 28,000,000...
The PubChem
Ex. A molecule listed in PubChem
分子とはなんぞや!?!?
• 現実的には「分子の名前」から分子のそれらしい初期構造を生成
せねばならない
• 分子の厳密な定義は無い
• 量子化学計算パッケージ的定義
– 原子の(x, y, z)座標
– 原子核の種類
– スピンの数
– 電荷...
分子とはなんぞや!?!?
• まず認めるべきことは
– どんな命名法、定義、符号化も完全ではない。
– 量子化学プログラムパッケージ的定義さえ、曖昧
さを含むことさえある。
– ケースバイケースで定義は変えなければならな
い。
• SMILES...
SMILESによる分子の符号化
Encoding molecule
SMILES is a good encoding method for molecules
IUPAC nomenclature
tert-butyl N-[(2S,3S,5...
SMILESとは?
• Simplified Molecular Input Line Entry System
– ASCII文字を使った分子の符号化
– コンフォーマー、幾何異性体なども表現可能
– 人間にもプログラムからも読める
– だい...
Example by SMILES
http://en.wikipedia.org/wiki/SMILES
分子 構造 SMILES
Nitrogen molecule N≡N N#N
copper sulfate Cu2+ SO42- [Cu...
SMILESで表現できない例
Ferroceneには二つの表現の仕方がある
• C12C3C4C5C1[Fe]23451234C5C1C2C3C45
• [CH-]1C=CC=C1.[CH-]1C=CC=C1.[Fe+2]
符号化、命名法で表現しづらい例
• 複雑な金属錯体
– そもそも量子化学計算でできるか?
– 右上図鉄のスピン状態を様々に変
化させ人工光合成させる
• 分子量の大きな分子
– 分子は大きくなる傾向あり?
https://www.ims.ac....
色々なフォーマットの違い
InChI SMILES CAS Number QC input file
入手性 Free (IUPAC & InChI Trust) Proprietary Proprietary Free
プログラムが読
めるか...
PubChemQC/PCCDB project
The PubChemQC project
http://pubchemqc.riken.jp/
The PubChemQC project
http://pubchemqc.riken.jp/
• PubChemの分子を計算できたらそのまま
uploadするサイト
• Gamess input/outputがただ羅列されている
• Gau...
PubChemQC
http://pubchemqc.riken.jp/
PubChemQC
http://pubchemqc.riken.jp/
どうやってPubChem Compoundの分
子を計算してるか
aflatoxin
O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5
第一原理計算を
OpenBABEL
で
計算のフローチャート
分子量分布と
PubChem Compouds
We are still here
Lipinski limit MW=500
We are still here
Lipinsky Rule
双極子モーメントの分布
HOMO-LUMO gapの
ヒストグラムと励起エネルギー
HOMO-LUMO gap と
励起エネルギーの関係
HOMO-LUMO ギャップの
機械学習に依る予測
Preliminary – さらなる結果は投稿中…
Python : scikit-learn
• 二つの機械学習の手法を試した
– サポートベクターマシン
– Ridge regression
機械学習と
HOMO-LUMO ギャップの予測
• 選択 : 100万分子 4.5 to 6.5 eV HOMO-LUMO ギャップ
がある分子をランダムに
• その中から2万分子: 教師データ
次の関数を機械学習により作った
f(SMILES...
機械学習と
HOMO-LUMO ギャップの予測
• Topological fingerprintとは
– Fingerprintは化学構造をビット列に落とし込む手
法一般のこと
– RDKitに入っているfingerprint “RDKit”...
機械学習と
HOMO-LUMO ギャップの予測
Method Kernel RMSE [eV]
SVM regression RBF 0.36
second-order polynomial 0.39
third-order polynomia...
機械学習と
HOMO-LUMO ギャップの予測
• HOMO-LUMO の精度は誤差が 0.3 to 0.4eV
低尾であった
• Topological fingerprint (1024bit)を特徴ベクト
ルとすることで、良い精度が得られ...
PCCDB.org と検索エンジン
Public Computer Chemistry DataBase project
http://pccdb.org/search_pubchemqc/query
PCCDB.org と検索エンジン
3D構造
吸収スペクトル
分子軌道と静電ポテンシャルも
見れます
分子の構造式
PCCDB.org と検索エンジン
• 検索キーは
– HOMO-LUMO ギャップ
– HOMO エネルギー or LUMO エネルギー
– 励起エネルギー
– 振動子強度
– 双極子モーメント
– あいまい検索 (Partial/Simil...
今回の結果
• http://pubchemqc.riken.jp/ PubChemに掲載され
ている分子のうち400万分子程度の構造最適化
済input/outputファイルを提供
• 上記結果を用いた機械学習に依るSMILES表記
からHO...
Computer Resources
• RICC : Intel Xeon 5570 Westmere, 2.93GHz 8
cores/node) x 1000
– 1000-10000 molecules/day (MW 160)
– H...
Molecular weight and Lipinski Rule
• Lipinski’s five rule (Pfizer's rule of five): rule of
thumb for drug discovery
• No m...
Nächste SlideShare
Wird geladen in …5
×
Nächste SlideShare
What to Upload to SlideShare
Weiter
Herunterladen, um offline zu lesen und im Vollbildmodus anzuzeigen.

1

Teilen

Herunterladen, um offline zu lesen

第11回分子科学 2017/9/17 Pubchemqcプロジェクト

Herunterladen, um offline zu lesen

第11回分子科学 2017/9/17 Pubchemqcプロジェクト: 分子データベース構築と機械学習に依る電子構造の推定

Ähnliche Bücher

Kostenlos mit einer 30-tägigen Testversion von Scribd

Alle anzeigen

Ähnliche Hörbücher

Kostenlos mit einer 30-tägigen Testversion von Scribd

Alle anzeigen

第11回分子科学 2017/9/17 Pubchemqcプロジェクト

  1. 1. PubChemQCプロジェクト: 分子データベース構築と機械学習 による電子構造の推定 中田真秀1 (NAKATA Maho) 島崎智実2 (SHIMAZAKI Tomomi) 1 ACCC RIKEN, 2 AICS RIKEN 2017/9/17 10:58-11:16 第11回分子科学討論会@仙台 (東北大学)
  2. 2. 背景 • 解決の難しい社会問題 地球温暖化、環境汚染問題、エネルギー問題、創薬、食糧問題など • 化学はこのような問題の解決に重要な役割を果た すだろう • 量子化学/計算化学の立場から – 大量の量子化学計算+データベース構築+クエリ環境構築+機械学習に よる分子の性質の予測(電子状態、物性値など) – サービス提供に依る化学者間の連携 • 理論さえ知っていればすべてわかるわけではない • Give and Take 量子化学計算 データベース構築 社会問題+化学者機械学習 正確な計算 データベースにない Xxxという候補分子 教師データ 種分子提供 物性予想
  3. 3. 材料は全て揃っている • 基礎理論は大体ok – “the fundamental laws necessary for the mathematical treatment of a large part of physics and the whole of chemistry are thus completely known” – Hartree Fock, DFT, MP2, … , PM3, PM6, AM1… • 成熟した実装は多数あり、同じ結果を出す – GAMESS, Gaussian, Qchem, Molpro…. • コンピューターリソース: 理研の施設 • データベース構築と、サービス提供 – 励起エネルギー、HOMO-LUMOギャップなどによる 「波動関数による」クエリー • 化学的直感による補完、予測 aka. 機械学習
  4. 4. 主たる結果 • http://pubchemqc.riken.jp/ PubChemに掲載され ている分子のうち400万分子程度の構造最適化 済input/outputファイルを提供 • 上記結果を用いた機械学習に依るSMILES表記 からHOMO-LUMOギャップの予想 • http://pccdb.org/ 上記の分子のサーチエンジ ン+ウェブベースの化学ツール提供
  5. 5. データベースの種類 • PubChem: 90,000,000 分子。アメリカNIHが作成。 著作 権フリー、キュレーションが弱い (カタログなどから取っ ている)、ネットからダウンロード可能 • ChemSpider : 28,000,000 分子。手でキュレーションを している。ftpによりダウンロード可、制限有り。 • Web-GDB13 : 900,000,000 以上、ただし組み合わせの 手法で全網羅、重要な分子はかなり少ない。 • Zinc, CheMBL, DrugBank … • CAS : 70,000,000分子。商用なので二次利用不可 を分子源として用いることにした。
  6. 6. The PubChem
  7. 7. Ex. A molecule listed in PubChem
  8. 8. 分子とはなんぞや!?!? • 現実的には「分子の名前」から分子のそれらしい初期構造を生成 せねばならない • 分子の厳密な定義は無い • 量子化学計算パッケージ的定義 – 原子の(x, y, z)座標 – 原子核の種類 – スピンの数 – 電荷 – 人間には読みにくい • IUPAC命名法 – 小さい分子のみ人間に判別可能 – より厳密ではない。さらに例外も多数。 • 機械的な処理が可能な分子の表記方法が必要 – SMILES : Simplified molecular input line entry specification syntax – InChI : International Chemical Identifier かなり厳密だが、時と場合によっては厳密すぎる しかしながらこれでも足りない場合も。
  9. 9. 分子とはなんぞや!?!? • まず認めるべきことは – どんな命名法、定義、符号化も完全ではない。 – 量子化学プログラムパッケージ的定義さえ、曖昧 さを含むことさえある。 – ケースバイケースで定義は変えなければならな い。 • SMILES/InChIの範囲内でどれだけ行けるか、 それだけでさえ人間が追えないくらい多い…
  10. 10. SMILESによる分子の符号化 Encoding molecule SMILES is a good encoding method for molecules IUPAC nomenclature tert-butyl N-[(2S,3S,5S)-5-[[4-[(1-benzyltetrazol-5-yl) methoxy]phenyl]methyl]-3-hydroxy-6-[[(1S,2R)- 2-hydroxy-2,3-dihydro-1H-inden-1-yl]amino]- 6-oxo-1-phenylhexan-2-yl]carbamate We can encode molecule • SMILES CN(C)CCOC12CCC(C3C1CCCC3)C4=CC=CC=C24 …
  11. 11. SMILESとは? • Simplified Molecular Input Line Entry System – ASCII文字を使った分子の符号化 – コンフォーマー、幾何異性体なども表現可能 – 人間にもプログラムからも読める – だいたい「分子」と一対一対応する(universal SMILES を用いることで) • SMILESの発明者: David Weininger at USEPA Mid-Continent Ecology Division Laboratory
  12. 12. Example by SMILES http://en.wikipedia.org/wiki/SMILES 分子 構造 SMILES Nitrogen molecule N≡N N#N copper sulfate Cu2+ SO42- [Cu+2].[O-]S(=O)(=O)[O-] oenanthotoxin CCC[C@@H](O)CCC=CC=C C#CC#CC=CCO Vitamin B1 OCCc1c(C)[n+](=cs1)Cc2cnc(C )nc(N)2 Aflatoxin B1 O1C=C[C@H]([C@H]1O2)c3c 2cc(OC)c4c3OC(=O)C5=C4CC C(=O)5
  13. 13. SMILESで表現できない例 Ferroceneには二つの表現の仕方がある • C12C3C4C5C1[Fe]23451234C5C1C2C3C45 • [CH-]1C=CC=C1.[CH-]1C=CC=C1.[Fe+2]
  14. 14. 符号化、命名法で表現しづらい例 • 複雑な金属錯体 – そもそも量子化学計算でできるか? – 右上図鉄のスピン状態を様々に変 化させ人工光合成させる • 分子量の大きな分子 – 分子は大きくなる傾向あり? https://www.ims.ac.jp/news/2016/02/12_3396.html http://www.apc.titech.ac.jp/~tmurahashi/research.ht 新規な物質を計算化学から創出するこ とは可能か? 命名主義は良くないのか?
  15. 15. 色々なフォーマットの違い InChI SMILES CAS Number QC input file 入手性 Free (IUPAC & InChI Trust) Proprietary Proprietary Free プログラムが読 めるか? Yes Yes No No (can be converted) 人間が読める か かなり努力すると読める InChIよりはマシ No No 水素 陰に陽に、浮動的指定可 大抵陰に指定する No 陽に指定する 量子数 No No No Yes, partially Google 検索 InChI keyで可能 ほぼ無理 運が良ければ No 正規化、標準化 オフィシャルサポート有り 無し(幾つかの可能 性) No No 互変異性体、光 学異性体 Yes Isomeric SMILES で 可能 No No 曖昧さを入れる Yes Yes Yes No 有機金属 一部可能、標準的ではな い。 一部可能、標準的 ではない。 Yes Yes
  16. 16. PubChemQC/PCCDB project
  17. 17. The PubChemQC project http://pubchemqc.riken.jp/
  18. 18. The PubChemQC project http://pubchemqc.riken.jp/ • PubChemの分子を計算できたらそのまま uploadするサイト • Gamess input/outputがただ羅列されている • Gaussian/Firefly/Smash/nwchemのインプット ファイルも出している。 – 誰でも簡単に試せるように – これらはアクセスが有ったときに生成される
  19. 19. PubChemQC http://pubchemqc.riken.jp/
  20. 20. PubChemQC http://pubchemqc.riken.jp/
  21. 21. どうやってPubChem Compoundの分 子を計算してるか aflatoxin O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5 第一原理計算を OpenBABEL で
  22. 22. 計算のフローチャート
  23. 23. 分子量分布と PubChem Compouds We are still here Lipinski limit MW=500 We are still here Lipinsky Rule
  24. 24. 双極子モーメントの分布
  25. 25. HOMO-LUMO gapの ヒストグラムと励起エネルギー
  26. 26. HOMO-LUMO gap と 励起エネルギーの関係
  27. 27. HOMO-LUMO ギャップの 機械学習に依る予測 Preliminary – さらなる結果は投稿中… Python : scikit-learn • 二つの機械学習の手法を試した – サポートベクターマシン – Ridge regression
  28. 28. 機械学習と HOMO-LUMO ギャップの予測 • 選択 : 100万分子 4.5 to 6.5 eV HOMO-LUMO ギャップ がある分子をランダムに • その中から2万分子: 教師データ 次の関数を機械学習により作った f(SMILES) = HOMO-LUMO gap • HOMO-LUMOギャップはGAMESS TDDFT/B3LYP/6- 31+G* • 特徴ベクトルに、topological fingerprint (1024bit)を利 用。 • 分子の幾何構造はSMILESの段階では考慮なし。教師 データを通じて陰に考慮されている
  29. 29. 機械学習と HOMO-LUMO ギャップの予測 • Topological fingerprintとは – Fingerprintは化学構造をビット列に落とし込む手 法一般のこと – RDKitに入っているfingerprint “RDKit” fingerprint – 部分構造、原子種類、結合の種類など • 他にもfingerprintはあり試行中(投稿中) http://www.rdkit.org/UGM/2012/Landrum_RDKit_UGM.Fingerprints.Final.pptx.pdf 参照
  30. 30. 機械学習と HOMO-LUMO ギャップの予測 Method Kernel RMSE [eV] SVM regression RBF 0.36 second-order polynomial 0.39 third-order polynomial 0.43 Ridge regression RBF 0.37 second-order polynomial 0.38 third-order polynomial 0.36 fourth-order polynomial 0.48
  31. 31. 機械学習と HOMO-LUMO ギャップの予測 • HOMO-LUMO の精度は誤差が 0.3 to 0.4eV 低尾であった • Topological fingerprint (1024bit)を特徴ベクト ルとすることで、良い精度が得られたと考えら れる。
  32. 32. PCCDB.org と検索エンジン Public Computer Chemistry DataBase project http://pccdb.org/search_pubchemqc/query
  33. 33. PCCDB.org と検索エンジン
  34. 34. 3D構造 吸収スペクトル 分子軌道と静電ポテンシャルも 見れます 分子の構造式
  35. 35. PCCDB.org と検索エンジン • 検索キーは – HOMO-LUMO ギャップ – HOMO エネルギー or LUMO エネルギー – 励起エネルギー – 振動子強度 – 双極子モーメント – あいまい検索 (Partial/Similarity) by SMILESと fingerprint http://pccdb.org/ 試してみてね TODO: HOMO-LUMOアッセイ 機械学習に依る提案
  36. 36. 今回の結果 • http://pubchemqc.riken.jp/ PubChemに掲載され ている分子のうち400万分子程度の構造最適化 済input/outputファイルを提供 • 上記結果を用いた機械学習に依るSMILES表記 からHOMO-LUMOギャップの予想 • http://pccdb.org/ 上記の分子のサーチエンジ ン+ウェブベースの化学ツール提供
  37. 37. Computer Resources • RICC : Intel Xeon 5570 Westmere, 2.93GHz 8 cores/node) x 1000 – 1000-10000 molecules/day (MW 160) – Heavily depend on conditions of other users – Time limit: 8 hours • Quest : Intel Core2 duo (1.6GHz/node) x 700 – 3000-8000 molecules / day (MW 160) – 100-1000 molecules / day (MW 200-300) – Time limit: 20 hours • Some compounds fail to calculate are ignored for this time.
  38. 38. Molecular weight and Lipinski Rule • Lipinski’s five rule (Pfizer's rule of five): rule of thumb for drug discovery • No more than 5 hydrogen bond donors • Not more than 10 hydrogen bond acceptors • A molecular mass less than 500 daltons • An octanol-water partition coefficient log P not greater than 5 • Molecular weight should be smaller than 500 is very good for computational chemistry – For routine calculations without experimental data other than molecular formula – If larger than 500, secondary or higher structure becomes important. E.g., protein
  • 634s

    May. 29, 2019

第11回分子科学 2017/9/17 Pubchemqcプロジェクト: 分子データベース構築と機械学習に依る電子構造の推定

Aufrufe

Aufrufe insgesamt

1.457

Auf Slideshare

0

Aus Einbettungen

0

Anzahl der Einbettungen

6

Befehle

Downloads

11

Geteilt

0

Kommentare

0

Likes

1

×