logo_w
logo_w

QSAR解析による構造活性相関モデルの構築と検証|創薬への応用

構造活性相関(SAR)を定量的にモデル化するQSAR解析は、化合物の化学構造から生物活性を予測するための基盤技術です。既知の活性データをもとに数学的モデルを構築することで、新規化合物の合成・実験前に活性を推定でき、創薬プロセスの効率化に貢献します。

本記事では、QSAR解析の基本概念と手順、記述子の種類と選択方法、モデルの検証手法に加え、3D-QSARやディープラーニングベースQSARといった発展的手法についても解説します。

この記事で分かること

  • QSARの基本原理と構造活性相関を定量化する意義を理解できる。
  • 記述子の種類(物理化学的・トポロジカル・幾何学的・電子的・フィンガープリント)と選択のポイントがわかる。
  • モデル構築の手順と、内部検証・外部検証・適用範囲評価による信頼性確保の方法を把握できる。
  • 3D-QSARやディープラーニングベースQSARなど、発展的手法の位置づけを理解できる。

QSARとは|構造活性相関の定量化

QSAR(Quantitative Structure-Activity Relationship、定量的構造活性相関)とは、化合物の化学構造と生物活性の間にある定量的な関係を統計的手法によってモデル化するアプローチです。構築されたモデルを用いることで、新規化合物の活性を合成・実験前に予測できるようになります。

QSARの基本的な考え方は、「類似した構造を持つ化合物は、類似した活性を示す」という原理に基づいています。化合物の構造的特徴を数値化し(記述子と呼びます)、それらと活性データの間の相関関係を数学的にモデル化することで、構造から活性を予測する式を導出します。

QSARは、リガンドベース創薬の代表的な手法の一つです。標的タンパク質の立体構造情報がなくても、既知の活性化合物データがあれば適用できるため、幅広い創薬プロジェクトで活用されています。

QSARの歴史と発展

QSARの起源は、化合物の物理化学的性質と生物活性の関係を定式化した研究にさかのぼります。初期のQSARでは、疎水性や電子的性質などの限られたパラメータを用いた線形回帰モデルが主流でした。

その後、計算機の発展と化学情報学の進歩に伴い、より多様な記述子や高度な統計手法が導入されるようになりました。現在では、機械学習やディープラーニングを活用した手法も登場し、QSARの予測精度と適用範囲は大きく拡大しています。

QSARとQSPR

QSARと関連する概念として、QSPR(Quantitative Structure-Property Relationship、定量的構造物性相関)があります。QSARが生物活性を予測対象とするのに対し、QSPRは溶解度や融点などの物理化学的性質を予測対象とします。

両者は手法的には共通する部分が多く、同じ記述子や統計手法が用いられます。創薬においては、活性だけでなく薬物動態に関わる物性の予測も重要であり、QSARとQSPRを組み合わせて活用することが一般的です。

QSAR解析の手順

QSAR解析は、データセットの準備からモデルの検証まで、複数のステップで進められます。各ステップでの適切な判断が、モデルの品質と予測精度を左右します。

データセットの準備

QSAR解析の出発点は、化合物の構造と活性データのセットを準備することです。データの質と量が、構築されるモデルの信頼性を大きく左右します。活性が高い化合物だけでなく、中程度や低い化合物も含めることで、活性の範囲全体をカバーするモデルを構築できます。

活性データの品質も重要な考慮点です。同一の実験条件で測定されたデータを用いることが望ましく、異なる実験系からのデータを混在させると、ノイズが増加してモデルの精度が低下する可能性があります。

データセットのサイズについては、一般的に記述子の数に対して十分な数の化合物が必要とされます。データが少なすぎると過学習のリスクが高まり、モデルの汎化性能が損なわれます。

記述子の計算と選択

データセットが準備できたら、各化合物の構造的特徴を数値化した記述子を計算します。記述子は化合物の構造情報を数値に変換したもので、QSARモデルの入力変数となります。計算される記述子の数は数百から数千に及ぶことも珍しくありません。

計算されたすべての記述子をモデルに使用するのではなく、活性予測に有用な記述子を選択することが重要です。不要な記述子を含めると、モデルが複雑化し、過学習や解釈性の低下を招く恐れがあります。

変数選択の手法としては、各記述子と活性の相関を評価して相関が低い記述子を除外する方法や、ステップワイズ法、遺伝的アルゴリズムなど、記述子の組み合わせを探索するアルゴリズムが用いられます。記述子の種類と選択のポイントについては、後のセクションで詳しく解説します。

モデルの構築と検証

選択された記述子を用いて、活性を予測する数学的モデルを構築します。重回帰分析は記述子の線形結合として活性を表現する手法で、各記述子の係数から構造と活性の関係を解釈できます。部分最小二乗法(PLS)は、記述子間の相関が高い場合や記述子の数がサンプル数に比べて多い場合に有効です。

機械学習手法として、サポートベクターマシン、ランダムフォレスト、ニューラルネットワークなどが活用されています。非線形な構造活性相関を捉えることができ、予測精度が向上する場合がありますが、モデルの解釈性は低下する傾向があります。

構築されたモデルの信頼性と予測能力を評価するために、適切な検証を行います。検証方法については後のセクションで詳しく解説します。

記述子の種類と選択

記述子は化合物の構造情報を数値に変換したもので、QSARモデルの基盤となります。記述子の選択はモデルの予測精度と解釈性に大きく影響するため、目的に応じた適切な記述子を選ぶことが重要です。

記述子の分類

物理化学的記述子は、分子の物理化学的性質を表す記述子です。分子量、疎水性パラメータ(logP)、極性表面積、水素結合供与基・受容基の数などが含まれます。直感的に理解しやすく、モデルの解釈に役立ちます。

トポロジカル記述子は、分子の二次元構造(原子間の結合関係)から計算される記述子です。分子の連結性や分岐度を数値化します。幾何学的記述子は三次元構造から計算され、分子の形状やサイズ、表面積、体積などを表現します。

電子的記述子は分子内の電荷分布や電子状態を表し、部分電荷、双極子モーメント、HOMO/LUMOエネルギーなどが含まれます。フィンガープリントは分子の部分構造の有無を二値で表現したベクトルであり、構造類似性の評価やバーチャルスクリーニングにも広く用いられています。

記述子選択のポイント

モデルの目的が構造活性相関の理解にある場合、解釈しやすい記述子を優先することが望ましいでしょう。物理化学的な意味を持つ記述子は、活性向上のための構造改変の指針を与えてくれます。

相関の高い記述子を同時に使用すると、モデルが不安定になったり、係数の解釈が困難になったりします。事前に記述子間の相関を確認し、冗長な記述子を除外することが重要です。

使用する記述子がデータセットの化合物の特性を適切に表現できるかも考慮します。たとえば、立体構造に依存した活性が予想される場合は、三次元記述子を含めることが有効です。

モデルの検証方法

QSARモデルの信頼性を確保するためには、適切な検証が不可欠です。検証を怠ると、見かけ上の高い精度を持つが実際には予測に使えないモデルを構築してしまうリスクがあります。

内部検証

内部検証は、モデル構築に使用したデータセット内での予測性能を評価する方法です。決定係数(R²)はモデルがデータの変動をどの程度説明できるかを示す指標ですが、記述子を増やせばR²は向上するため、この指標だけでモデルの良否を判断することはできません。

クロスバリデーションは、データセットを複数の部分集合に分割し、一部をモデル構築に、残りを予測性能の評価に用いる手法です。Leave-one-out法やk分割交差検証が一般的に用いられます。クロスバリデーションで得られるQ²値は、モデルの内部予測性能の指標となります。

外部検証と適用範囲

外部検証は、モデル構築に使用していない独立したデータセットでの予測性能を評価する方法です。データセットをトレーニングセットとテストセットに分割し、テストセットはモデル構築の過程で一切使用しないことが重要です。外部検証での高い予測精度は、モデルの汎化性能を示す重要な証拠となります。

QSARモデルには適用範囲(アプリカビリティドメイン)があり、モデル構築に使用した化合物群とは大きく異なる構造の化合物に対しては、予測の信頼性が低下します。予測対象の化合物がトレーニングセットの化学空間内にあるかどうかを確認し、適用範囲外の化合物に対する予測は信頼性が低いことを認識したうえで扱う必要があります。

過学習への注意

過学習とは、モデルがトレーニングデータに過度に適合し、新規データに対する予測性能が低下する現象です。記述子の数が多すぎる場合や、モデルが複雑すぎる場合に発生しやすくなります。

過学習を防ぐためには、適切な記述子選択、クロスバリデーションの活用、モデルの複雑さの制御が重要です。トレーニングセットでの性能が高くてもテストセットでの性能が低い場合は、過学習の可能性を疑うべきでしょう。

3D-QSARとディープラーニングベースQSAR

従来のQSARに加え、分子の三次元情報を活用する3D-QSARや、ディープラーニングを用いた手法が発展しています。これらは構造活性相関のモデリングにおける適用範囲と予測精度を拡張するアプローチです。

3D-QSAR

3D-QSARは、化合物の三次元的な構造情報を直接モデルに取り込む手法です。代表的なアプローチであるCoMFA(Comparative Molecular Field Analysis)では、化合物を三次元空間に重ね合わせ、周囲の格子点における立体的・静電的な相互作用エネルギーを記述子として用います。

CoMSIA(Comparative Molecular Similarity Indices Analysis)は、CoMFAを拡張した手法で、疎水性や水素結合に関するフィールドも考慮します。これらの3D-QSAR手法は、活性に影響を与える空間的な領域を可視化できるため、構造改変の方向性を直感的に把握できる利点があります。

ただし、3D-QSARでは化合物の重ね合わせ(アライメント)が結果に大きく影響するため、適切なアライメントの設定が重要です。ファーマコフォアモデルを基準としたアライメントが広く用いられています。

ディープラーニングベースQSAR

近年、グラフニューラルネットワーク(GNN)をはじめとするディープラーニング手法がQSARに適用されています。GNNは分子グラフ(原子をノード、結合をエッジとして表現した構造)を直接入力として扱えるため、人手で記述子を設計する必要がなく、モデルが自動的に有用な特徴を学習します。

ディープラーニングベースのQSARは、大規模データセットが利用可能な場合に特に威力を発揮します。一方で、モデルの解釈性が従来手法に比べて低い傾向があり、予測結果の根拠を化学的に説明することが課題となっています。

従来のQSARとディープラーニングベースQSARは相互に補完的な関係にあります。構造活性相関の理解と解釈性が求められる場面では従来手法が適しており、予測精度の向上や大規模スクリーニングが目的の場面ではディープラーニング手法が有効です。

[QSAR解析]に関連するFAQ

QSAR解析に必要なデータセットのサイズはどの程度ですか?

一般的に、使用する記述子の数に対して十分な化合物数が必要とされます。記述子の数よりも大幅に少ないデータではモデルが過学習しやすくなるため、記述子選択によって入力変数を絞り込むことが重要です。

QSARとQSPRの違いは何ですか?

QSARは化合物の化学構造と生物活性の関係をモデル化するのに対し、QSPRは溶解度や融点などの物理化学的性質を予測対象とします。両者は手法的に共通する部分が多く、創薬では併用されることが一般的です。

3D-QSARと従来のQSARはどのように使い分けますか?

従来のQSARは二次元構造から算出される記述子を用い、計算効率が高い利点があります。3D-QSARは分子の三次元的な構造情報を直接取り込むため、立体的な構造活性相関の理解に有効です。活性に立体構造が大きく関与する場合に3D-QSARが選択されます。

ディープラーニングベースQSARの課題は何ですか?

予測精度は向上する傾向がありますが、モデルの解釈性が従来手法に比べて低い点が課題です。予測結果の根拠を化学的に説明することが難しく、構造改変の指針を得にくい場合があります。大規模データセットが利用できない場面では、従来手法の方が適していることもあります。

QSARモデルの適用範囲(アプリカビリティドメイン)とは何ですか?

QSARモデルが信頼性の高い予測を提供できる化学空間の範囲を指します。モデル構築に使用した化合物群と大きく異なる構造の化合物に対しては予測精度が低下するため、予測対象がトレーニングセットの化学空間内にあるかを確認することが重要です。

この記事のまとめ

  • QSAR解析は化合物の構造と活性の定量的関係をモデル化し、新規化合物の活性予測を可能にする手法である。
  • データセットの準備、記述子の計算・選択、モデル構築、検証という一連の手順で進められる。
  • 記述子は物理化学的・トポロジカル・幾何学的・電子的・フィンガープリントに分類され、目的に応じた選択が重要である。
  • 内部検証(クロスバリデーション)と外部検証を組み合わせ、適用範囲の評価と過学習の防止がモデルの信頼性確保に不可欠である。
  • 3D-QSARやディープラーニングベースQSARが発展しており、従来手法と補完的に活用することで構造活性相関研究の幅が広がっている。

分子モデリングソフト関連製品・サービス

分子モデリングソフト関連記事