In silico drug design (molecular design) package software with myPresto インシリコ創薬による、ドラッグデザイン(薬剤分子設計) パッケージ ソフトウェア

MolDesk Screening 詳細説明

  • HOME »
  • MolDesk Screening 詳細説明

MolDesk Screening の主な機能を説明します。
※ MolDesk Screening は、MolDesk Basic のすべての機能を含みます。
以下では、MolDesk Basic に含まれない機能を説明します。

インシリコ薬剤スクリーニング  [Screening]

ML-DSI / ML-MTS / MTS  of myPresto

MDS_df002

  1. ユーザ指定の化合物、または、LigandBox で提供される化合物データベースの中からスクリーニングします。数百万化合物まで可能です。
  2. ユーザ指定の化合物を対象にスクリーニングする場合は、MolDesk Screening によるデータベース作成が必要です。
  3. myPresto の ドッキングスコア順、MTS 法、機械学習 MTS 法、機械学習 DSI 法 ※※ によるスクリーニングができます。機械学習 DSI 法は、ターゲットタンパク質の情報は不要です。
  4. いずれの手法も、ドッキング計算をベースにしてます。そのため、活性化合物の分子量が、200 Da ~ 400 Da くらいの範囲で最も精度が高くなります。
  5. 機械学習に必要な活性化合物の数は、5個程度以上あれば精度が高くなります。
  6. 各スクリーニング計算法の、化合物データベース以外の入力は以下の通りです。
ターゲットタンパク質
(PDB)
既知活性リガンド
(mol2 / sdf / mol) ※
ドッキングスコア順 ○必須
MTS ※※ ○必須
ML-MTS ○必須 ○必須
ML-DSI ○必須

※ sdf / mol ファイルは、MolDesk の機能によってあらかじめ mol2 ファイルに変換する必要があります。

※※ それぞれ以下の略です。※※
MTS      : MTS法 ( Multiple Target Screening )
ML-MTS : 機械学習 MTS法 ( Machine Learning Multiple Target Screening )
ML-DSI : 機械学習 DSI法 ( Machine Learning Docking Score Index )

スクリーニング計算の精度を確認するために、テスト用に既知活性リガンドを加えてスクリーニングすることも可能です。この場合、database enrichment 曲線を表示して、AUC で精度の確認ができます。

enrich002

上記のグラフは、ターゲットタンパク質を用いない ML-DSI 法で精度の検証をした例です。AUC= 97.72% であることが確認されました。(シクロオキシゲナーゼ 4cox の活性化合物 124 個で機械学習して、113 個の別の活性化合物を LigandBoxの 10,000 化合物に混ぜて、スクリーニングした例)。

screeninglist

スクリーニング計算結果は、各計算法のランキング順で表示します。表示項目は、
2D構造、ランキング、ID、スコア値、化学式、分子量、logS、logP、電荷、ドナー数、アクセプター数、Homo、Lumo、Chiral原子数、供給者、IDNUMBER、Source ID(NAMIKI ID)、Note
です(現バージョンでは、LigandBox でなくユーザの化合物でスクリーニングした場合、logS、logP は計算しません)。
各項目はソート可能です。
csv ファイル、または、HTML ファイルに出力しますので、エクセルで読み込め、化合物の発注に使えます。HTMLファイルは、2次元構造図も付きます。

化合物データベースの作成

  1. ユーザの sdf ファイルを入力にして、上記スクリーニング用の化合物データベースを作成できます。
  2. 初めに、2D 構造の 3次元化を行います。その際に、H 原子の付加は、水素の解離状態は水中での主たるイオン形で行い、AMBER GAFF2 力場で構造最適化し3次元化して、MOPAC7 AM1 で電荷を付加します。各種物性値も自動計算します(現バージョンでは、logS, logP を除く)。
  3. 薬にふさわしくない部分構造を持つ化合物を除外したり、分子量によりフィルタリング可能です。また、Conformer (配座異性体) の生成も行えます。(4 員環以上の環構造の部分について生成。分子内にキラル中心が存在する場合には、光学異性体も同時に生成。)
  4. そのための GUI は以下の通りです。薬にふさわしくない部分構造は、一般的な薬としてふさわしくない構造、または、農薬としてふさわしくない構造(こちらの方が除外すべき条件が緩い)から選択可能です。分子量は、下限、上限の設定が可能です。makedb
  5. 自動的に並列計算しますが、計算量が大きいので、時間がかかります。下記の表は、259,868 個の化合物の sdf ファイルを入力とした場合の計算時間です。実際の計算時間は、データベースを作成したい化合物数で比例倍してください。
通常のPC
Windows 8.1
Intel Corei7-4790K 4.0GHz
16GBメモリ
8並列
計算サーバ
Linux CentOS6
Intel Xeon(R) E5-2697 v2 @ 2.70GHz x 2
(24コア48論理プロセッサ) 64GBメモリ
48並列
259,868 個の化合物 641時間(26日7時間) 191時間(7日23時間)

並列計算による高速化

  1. スクリーニング計算は、化合物とタンパク質の全組み合わせで、網羅的にドッキング計算する必要があるため計算量が大きいため並列計算で高速化します。
  2. 並列数は、Preference で設定できます。インストールしたPCや 計算サーバのプロセッサー数が、Preference の初期の並列数になってます。そのため、通常は、ユーザは何も特別な並列計算の設定をする必要がありません。
  3. 1回あたりのスクリーニングに必要な計算時間は以下の通りです。
通常のPC
Windows 8.1
Intel Corei7-4790K 4.0GHz
16GBメモリ
8並列
計算サーバ
Linux CentOS6
Intel Xeon(R) E5-2697 v2 @ 2.70GHz x 2
(24コア48論理プロセッサ) 64GBメモリ
48並列
ドッキングスコア順
または、MTS
35時間31分  10時間 3分
ML-MTS 45時間 7分 13時間12分
ML-DSI  8時間26分 2時間49分

タンパク質を含む受容体側が 8928 原子、LigandBox 200 万化合物 + 174 化合物、既知活性化合物 174 個 で計算した場合の例

  1. 繰り返しスクリーニングの場合、2回目以降の計算は、1回目の計算結果を利用しますので、1回目(上表)よりも大幅に早く終わります。

ポケット探索  [Screening]

  1. myPresto の Molsite による高精度なポケット探索をします。(MolDesk Basic には、Molsite によるポケット探索機能はありません。MolDesk Basic は、高速ですが簡易的なポケット探索機能だけを実装してます。)

1m17_006a

 

 

PDB 1m17

青は正解 緑は自動計算で予測したリガンド構造

赤い点は予測したポケット候補

RMSD = 1.36Å

4kn6_002a

 

 

 

 

PDB 4kn6

青は正解 緑は自動計算で予測したリガンド構造

赤い点は予測したポケット候補

RMSD = 1.08Å

 

 

 

上図は、PDB 1m17 と PDB 4kn6 で、リドッキング問題を全自動で計算してみた例です。PDB ファイルを修飾なしでそのまま使用し、[Auto Docking] コマンドで自動的に実行しました。Molsite でポケット探索された複数のポケットの中で、最もスコアが良いポケットに対して自動的にドッキング計算を実行して得られたドッキングポーズです。

  1. この手法も、網羅的なドッキング計算をベースにしているので計算量が大きく、並列計算します。
  2. 1タンパク質あたりのポケット探索時間は以下の通りです。
通常のPC
Intel Corei7-4790K 4.0GHz
16GBメモリ windows8.1
8並列
PDB 1m17  (4744原子) 15分
PDB 4kn6  (1555原子) 11分

化合物特性  [Screening]

活性値予測 ( Docking Score QSAR )

  1. 指定した化合物の特定のタンパク質に対する活性値を予測します。
  2. ChEMBL より得られる親和性データ(IC50 値, %阻害値, 活性値など)を入力して、回帰パラメターを作成します。回帰パラメターを使って、特定のタンパク質に対する活性値を計算します。
  3. ChEMBL の実験データを入力にして回帰パラメターを作成する工程では、ファーマコフォアを代表した 600 種類のタンパク質に対するドッキング計算を実行して作成するため、比較的長時間の計算時間(数日~数十日)が必要です。
  4. 作成した回帰パラメターを使って、特定のタンパク質に対する活性値を計算する工程は、数十秒~数分で終了します。
  5. このため、回帰パラメター作成の工程を、弊社で請け負うことも可能です。

MVO Screening ( Maximum volume overlap method )

  1. MVO Screening とは、2つの分子の立体的な重ね合わせにより、重なりの大きいものを類似性が高いとする類似化合物探索です(旧名:MD-MVO)。
  2. 重ね合わせでは、分子の配座の発生と、原子電荷の類似も考慮して、エネルギー最小化を用いた重ね合わせを行います。スコアは体積重なりの%の値です。
  3. 系の中の化合物を1分子選択します。この分子が検索のクエリーになります。ファイルセレクタ―によって、検索される側の複数の分子を選択して、検索します。
  4. 検索される側の複数の分子は、あらかじめ mol2 ファイルをユーザが用意します( MolDesk Basic の [Convert to 3D Mol2] コマンドで可能です)。
  5. 検索結果は、分子 ID、/DB スコア、/query スコア、-1 * Tanimoto スコアを、以下の通りリスト表示します。スコアは、同一化合物の場合に -1.0 となり、スコアが大きく(絶対値が小さく)なると類似性が低くなります( csv / html ファイル出力可能 )。
  6. 各スコアには以下の特徴があります。
/DB データベース中の小さい分子が選ばれる
/query データベース中の大きな分子が選ばれる
-1 * Tanimoto (Tanimoto係数) クエリー分子に大きさの近いデータベースの分子が選ばれる

3通りのスコアの、集合論的な計算原理は下図の通りです。3番目のスコアは Tanimoto 係数を表します。

類似構造検索

  1. TGS 法  (Topology Graph Similarity ) による化合物分子の類似構造検索をします。
  2. 系の中の化合物を1分子選択します。この分子が検索のクエリーになります。ファイルセレクタ―によって、検索される側の複数の分子を選択して、検索します。
  3. 検索される側の複数の分子は、あらかじめ mol2 ファイルをユーザが用意します。
  4. 検索結果は、順位、mol2 ファイル名、TGS スコアを、以下の通りリスト表示します。TGS スコアは、同一化合物の場合に 0.0 となり、スコアが大きくなると類似性が低くなります。

部分構造検索

Substructure Search

  1. 系の中の化合物を1分子選択します。この分子が検索のクエリーになります。ファイルセレクタ―によって、検索される側の複数の分子を選択して、検索します。
  2. 検索される側の複数の分子は、あらかじめ mol2 ファイルをユーザが用意します。
  3. 検索結果は、内部番号、mol2 ファイル名、原子数、見つかった部分構造の数を、以下の通りリスト表示します。

文献リストとやや詳しい解説

スクリーニング (MTS / DSI)

※※ MTS (Multiple Target Screening) 法とは、標的蛋白質構造をもとにした structure-based のインシリコスクリーニング法であり、DSI 法とは、既知活性物質をもとにした ligand-based のインシリコスクリー ニング法です。ヒット探索のための in silico スクリーニングは、通常、標的蛋白質に対して、化合物ライブラリーに含まれる多数の化合物を順次ドッキングし、スコアの良い化合物をヒット化合物候補として採択します。しかし、このような一般的に用いられる手法では、ヒット化合物の予測精度は、ランダムスクリーニングよりは良いが低いままです。MTS 法、DSI 法では、多数の蛋白質と化合物ライブラリーを準備し、蛋白質-化合物相互作用行列をあらかじめ作成して計算に用いることで、ヒット化合物の予測率を向上しています。

Multiple target screening method for robust and accurate in silico screening.
Journal of Molecular Graphics and Modelling.25, 61-70. (2005)
Y. Fukunishi, Y. Mikami, S. Kubota, H. Nakamura

Improvement of protein-compound docking scores by using amino-acid sequence similarities of proteins.
Journal of chemical information and modeling.48, 148-156. (2008)
Y. Fukunishi, H. Nakamura

Classification of chemical compounds by protein-compound docking for use in designing a focused library.
Journal of Medicinal Chemistry. 49, 523-533. (2007)
Y. Fukunishi, Y. Mikami, K. Takedomi, M. Yamanouchi, H. Shima, H. Nakamura

Finding ligands for G-protein coupled receptors based on the protein-compound affinity matrix.
Journal of Molecular Graphics and Modelling.25, 633-43. (2007)
Y. Fukunishi, S. Kubota, H. Nakamura

An efficient in silico screening method based on the protein-compound affinity matrix and its application to the design of a focused library for cytochrome P450 (CYP) ligands.
Journal of chemical information and modeling. 46, 2610-22. (2006)
Y. Fukunishi, S. Hojo, H.Nakamura

Noise reduction method for molecular interaction energy: application to in silico drug screening and in silico target protein screening.
Journal of Chemical Information and Modeling. 46, 2071-2084. (2006)
Y. Fukunishi, S. Kubota, H. Nakamura

A virtual active compound produced from the negative image of a ligand-binding pocket, and its application to in-silico drug screening.
Journal of Computer-Aided Mol Design. 20, 237-48. (2006)
Y. Fukunishi, S. Kubota, C. Kanai, H. Nakamura

LigandBox (化合物データベース)

LigandBox は、世界中の2次元の SDF 形式の電子カタログを集め、H 原子の付加、3次元構造化、原子電荷の付加を計算し、種々な物性も計算して DB 化したものです。類似構造検索により重複を除き、最終的には200万化合物に集約しています。具体的には、H 原子の付加は、水素の解離状態は水中での主たるイオン形で行い、3次元構造化は、AMBER/GAFF2 力場で構造最適化し、電荷の付加は、MOPAC 7 AM1 モデルでの Mulliken population で行っています。SDF に基づく異性体を考慮し、ファイル形式は、Sybyl mol2 です。

LigandBox: A database for 3D structures of chemical compounds.
BIOPHYSICS. 9, 113-121 (2013).
T. Kawabata, Y. Sugihara, Y. Fukunishi, and H. Nakamura.

ポケット探索 (Molsite)

※ Molsite によるタンパク質の薬物結合ポケット探索は、計算の初めに、タンパク質の表面に10Å間隔くらいでポケットを多数設定します。通常、1タンパク質あたり50個程度のポケットが設定されますが、それぞれのポケットに1万化合物をドッキング計算し、すべてのスコアを評価する手法です。

Prediction of ligand-binding sites of proteins by molecular docking calculation for a random ligand library.
Protein Science. 20, 95-106. (2011)
Yoshifumi Fukunishi, Haruki Nakamura

Docking score QSAR

※ Docking score QSAR は、多数の蛋白質に対するドッキングスコアの重み付き平均で結合自由エネルギーを推算する方法。推算モデルは、リッジ回帰を用いた記述子ベースの重み付き主成分解析 (PCR) で計算しており、ロバスト推定(M推定)を利用して外れ値の除外を行っている。

※ 公共データベースの活用
回帰に利用する親和性データおよび構造データは、ChEMBL および PDB (公的データベース)より取得している。ChEMBL より得られた親和性データ ( IC50 値,  % 阻害値, 活性値など) は、全て結合自由エネルギー DG に換算している。但し、ChEMBL には換算に必要な実験情報が不足していた為、幾つかの仮定を置いた( Kd = Ki 等 )。ChEMBL の様な公的なデータベースを基にしつつも、相関係数 0.87(誤差 0.92 kcal/mol)で化合物の活性予測ができた (molprof 内部データによる)。

 

※ MMP (matrix metalloproteinase) に対する適用
MMP は結合ポケットに Zn イオン( Zn2+ )を含んでいる為、結合エネルギーの評価が難しい。この MMP についても、Docking score QSAR は良好に動作し、docking score = DG と見なした単純な推算結果に対して精度の大幅な向上が見られた。


 

MMP2 (PDBID 1hov)  MMP3 (PDBID 2y6d)  MMP7 (PDBID 4g9l)  MMP9 (PDBID 5b5o)  MMP13 (PDBID 5cuh)
   

Prediction of Protein−compound Binding Energies from Known Activity Data: Docking-score-based Method and its Applications
Mol. Inf. doi:10.1002/minf.201700120 (2018 Feb.)
Yoshifumi Fukunishi, Yasunobu Yamashita, Tadaaki Mashimo, and Haruki Nakamura

Quantitative Structure‐activity Relationship (QSAR) Models for Docking Score Correction
Mol. Inf. 2017, 36, 1600013.
Yoshifumi Fukunishi, Satoshi Yamasaki, Isao Yasumatsu, Koh Takeuchi, Takashi Kurosawa, and Haruki Nakamura

MVO Screening

※ MVO Screening (旧名:MD-MVO (molecular dynamics maximum volume overlap method))は、化合物の 3 次元構造を基にして、類似の 3 次元構造を持つ化合物を探索する手法です。2つの分子の体積の重なりを原子電荷の類似性も考慮して行い、体積の重なり具合をスコアとします。分子の重ね合わせ計算では、エネルギー極小化計算を用い、分子の配座、変形も考慮して重ね合わせができるため、既知化合物の類似化合物探索では高いヒット率を示します。

A new method for in-silico drug screening and similarity search using molecular-dynamics maximum-volume overlap (MD-MVO) method.
Journal of Molecular Graphics and Modelling. 27.  628-636. (2009)
Y. Fukunishi, H. Nakamura

類似構造検索

※ Topology Graph Similarity は、分子の共有結合をエッジとした分子グラフを、エッジ行列表示とし、その行列固有値を指標とし、化合物の類似性を探索する手法です。分子の構造情報は、実数値のベクトルへと変換され、ベクトルの距離から類似性が計算されます。非常に高速ですが、光学異性体、配座を区別することはできません。

A similarity search using molecular topological graphs.
Journal of Biomedicine and Biotechnology. Article ID 231780. (2009)
Y. Fukunishi, H. Nakamura

部分構造検索

※ Substructure Search は、複数の検索対象化合物 (mol2 形式) に対し、クエリ構造 (mol2 形式) と同じ構造を持つ化合物を検索します。分子は化学結合をエッジとするエッジ行列に変換され、部分構造の比較は、ウルマンの定理によって行います。分子の配座、光学異性体は考慮することができません。

試用版はお気軽にお問い合わせ下さい (Please feel free to request a trial version)

  • Facebook
  • Hatena
  • twitter
  • Google+
PAGETOP
Copyright © 2015-2018 IMSBIO Co., Ltd. All Rights Reserved.