科学注目度 57

自然界のタンパク質フォールドの「過剰な冗長性」：深層学習による創薬設計の課題

※本記事の要約および解説はAIが自動生成しており、誤りが含まれる可能性があります。事実確認は元ニュースをご参照ください。

本稿は、深層学習モデルを用いた生体分子設計の進展と、そのデータ基盤における構造的課題について詳細に論じている。近年、AlphaFold3などの深層学習モデルは、タンパク質-薬剤や抗体-タンパク質複合体の予測を飛躍的に向上させ、創薬分野に革命をもたらしている。これにより、深層学習ベースの生成モデルを用いて、優れた薬理特性を持つ抗体やバイオ医薬品の設計が可能になりつつある。

しかし、モデルの性能向上には「モデルのスケールアップ、計算能力のスケールアップ、データのスケールアップ」が不可欠である。AlphaFold3は、ゲノミクスやメタゲノミクスから得られる膨大なタンパク質配列データ（MGnifyスケール）を活用し、配列スケールを構造スケールに変換する点で画期的であった。特に、進化的な歴史を共有しない抗原-抗体相互作用の予測において、この大規模な配列データが有効であることが示されている。

一方で、筆者らは、単に自然界の配列データを増やしても、必ずしも構造的な多様性が増すわけではないという「過剰な冗長性」の問題を指摘している。進化は安定し、表現可能なフォールドを再利用する傾向が強く、配列が大きく異なっていても、フォールド（折りたたみ構造）が非常に類似している例が多数存在する。このため、単なる配列のスケールアップだけでは、真に新しい構造的知見を得るのが難しい。

この課題を克服するため、筆者らは、予測された構造データ（Predicted structures）のクラスタリングやデータ前処理の方法論を提案している。従来のフィルタリング手法（pLDDTなど）では、適切なドメインとノイズ（無秩序な末端など）の区別が難しく、より「外科的」なアプローチが必要である。具体的には、タンパク質を「グラフ理論的」に分割し、残基間の接続性に基づいて、真に独立した構造単位を抽出することが求められている。

背景

深層学習、特にAlphaFold以降の進展により、タンパク質の構造予測と設計が飛躍的に進歩した。創薬研究において、標的となるタンパク質や、それと結合する薬剤（抗体など）の構造を正確に知ることは極めて重要である。本稿は、この技術的進歩の裏側にある、データ（配列）と構造の間の本質的なギャップを指摘している。

重要用語解説

深層学習モデル (Deep learning models): 大量のデータから複雑なパターンを学習するAIモデル。タンパク質構造予測や分子設計に応用され、創薬の効率を劇的に高めている。
AlphaFold3: DeepMindが開発した最新のタンパク質構造予測モデル。タンパク質-薬剤や抗体-タンパク質など、複数の生体分子間の複合体予測に成功した。
メタゲノミクス (Metagenomics): 特定の環境（土壌、海洋など）から採取したサンプルに含まれる、未知の生物由来の全遺伝子情報を解析する技術。膨大な配列データの源となる。
影響: 本稿が示す「構造の冗長性」の課題を解決することは、AI創薬の次の大きなボトルネックを解消する鍵となる。真に新規なフォールドや相互作用を特定できれば、これまで困難だった難病に対する画期的な薬剤設計が可能となり、製薬産業全体に大きな変革をもたらすことが期待される。今後は、より洗練されたデータ前処理技術が求められる。

Information Sources:

https://research.ligo.bio/posts/unreasonable-redundancy-of-natural-protein-folds/