tech

Bio-IA: タンパク質研究に応用されたディープラーニング

3 de oct. de 2025 — Sabrina Bottazzi

ディープラーニングは応用科学に革命をもたらし、200万以上のタンパク質構造の詳細な原子モデルを処理することを可能にします。

7 min read

AIは病気を治すことができるようになるのか？答えはまだ確実ではありませんが、それを達成するために働いている人がいることは疑いの余地がありません。そこに到達するために、まずタンパク質の世界とそれが深層学習によってどのように革命を起こしたかに精通する必要があります。昨年、タンパク質生成用のAIモデルを開発した2つの科学者グループに化学賞ノーベル賞が授与されるほどです。タンパク質の「計算設計」でDavid Bakerが受賞し、タンパク質構造の「予測」でDemis HassabisとJohn Jumperが受賞しました。

また驚くべきことは、健康分野に指数関数的に影響を与える関連する結果が達成された短い期間です。私たちが知っている利用しているほとんどのAIモデルと同様に、これはすべて2017年のTransformersアーキテクチャの開発のおかげで可能になりました （これがChatGPTのTの由来です）。その自己注意メカニズムは、テキストや画像など異なるドメインに適用することができました。そして3年後、この記事で私たちが関心を持つドメインにも：タンパク質です。

特定の機能を持つタンパク質を設計できることは、私たちが知っているように医療産業（および他の多くの産業）における転換点を表しています。合成抗体を開発したり、ワクチンをより短い期間で製造したり、各患者に対する個人化された治療法を開発する能力を持つことは、実現し始める可能性のあるほんの数ある実装です。

タンパク質とは

タンパク質は生命の基本的な機械だと言えます。より詩的ではない方法では、互いに結合する小さな分子に基づいたアミノ酸（AA）の非常に長い鎖です。自然界には20種類しかなく、無限の数のタンパク質を構成しています。最も小さいものは約100AAを持っていますが、数千のAAで形成されたものも存在する可能性があります。

これらの高分子は非常に多様であるため、体全体でさまざまな機能を果たします。��そらく最も知られているのは筋肉組織を構成するもの（だから肉を食べるときに「タンパク質を摂取する」と言う）ですが、化学反応を助長または加速するもの（酵素と呼ばれる）も存在します。また、ヘモグロビンのような輸送タンパク質があり、血液を通じて酸素を運ぶ役割があります。

他の役割としては、免疫系の一部を形成する抗体、シグナリングおよび調節タンパク質、膜および認識タンパク質があります。この最後のカテゴリでは、パンデミック中にSARS-Cov-2ウイルスの膜に位置するSpike タンパク質が非常に有名になりました。（戦争のフラッシュバック）。Spikeタンパク質はACE2受容体との親和性が高く、ACE2は酵素です（はい、別のタンパク質です）肺や心臓などの複数の器官の細胞膜に存在します。これら2つの分子が結合すると、他のプロセスとより多くのタンパク質を介して、ウイルスは細胞内にその遺伝物質を放出し、感染を引き起こします。

タンパク質の研究方法

タンパク質の構造を知ることは、その機能を理解するための重要な要素です。例えば、Covid に対するワクチンを開発するために（異なるテクノロジーが存在しますが、この場合は「組換えタンパク質」になります）、Spikeタンパク質はSARS-Cov-2の残りの部分から分離されて生体外で生成されます。その構造を知ることで、的を絞った修正が実装され、ウイルスの膜に存在する同じ形状に保たれます（融合前状態、ヒト細胞の受容体に結合する前）。このステップは、ワクチンを投与されると免疫系がSpikeタンパク質に対して ACE2受容体への結合をブロックする抗��で反応するため重要です。これらの抗体はSpikeタンパク質に結合し、ウイルスが体に侵入した場合に備えて反応を学習します。

問題は、この場合~1200AAを持ち、~15nm（つまり0.000015mm、非常に小さい）の長さを持つタンパク質を研究者がどのように分析できるかです。明らかに、これはバイオテクノロジー開発のボトルネックをもたらしましたこれらの分子に基づいており、これがAIモデルの実装がこのロジック全体を破るために来た理由です。

標準的な方法はX線結晶学と呼ばれ、まず安定したタンパク質をかなりの量で取得する必要があります。次に、サンプルを精製し、結晶を取得できるように化学的に培地を変更する必要があります（そのタンパク質の数千のコピーが反復的で均一な方法で配列されます）。このステップは重要かつ複雑です。すべてのタンパク質が結晶構造を形成できるわけではないからです。次のステップは、それらをX線に露出させて、これらの粒子が結晶とどのように相互作用したかを明らかにする回折パターンを生成することです。既に最後の段階は非常に複雑になり、フーリエ変換、電子密度マップ、および構造モデリングプログラムを使用しています。このプロセス全体の出力は最終的にタンパク質の詳細な原子モデルです。

Baker、Hassabis、およびJumperが化学賞ノーベル賞を受賞（2024）

AlphaFoldおよびRFdiffusion

科学コミ��ニティで反響を呼んだ2つのモデルはAlphaFold（Demis HassabisおよびJohn Jumperによって開発）とRoseTTAFold/RFdiffusion（David Bakerが担当）でした。

2010年、HassabisはShane Leggと一緒に（彼はまだ部分的に参加していますが、もはやそれほど引用されていません）およびMustafa Suleyman（2019年に会社を去りました）がDeepMindを設立しました。この企業は、汎用人工知能（AGI）とビデオゲーム分野の強化学習（RL）に焦点を当てています。2014年、Googleは約5億ドルでそれらを購入しました。そして数年後、2018年にJumperが率いるチームがAlphaFold1を立ち上げました。これはタンパク質開発に適用された深層学習を使用した最初のモデルです。これはCNNを適用して、幾何パラメータ（アミノ酸ペア間の距離と角度）を予測し、タンパク質の構造を再構築できました。

それは確かに歴史的な出来事でしたが、原子の位置を定義する精度の点でまだ制限がありました。ブームはAlphaFold2で起こりました。これはTransformersの自己注意メカニズムのアーキテクチャに基づいていました（彼らはこの修正されたTransformerをEvoformerと呼びました）。AAシーケンスに適用し、AAの構造的関係をキャプチャします。シーケンスではおそらく遠く離れていますが、3D構造では、折り畳みによって、「近隣」になってしまいます。

その時点まで、約120,000のタンパク質の構造が既知でした。これは何年もの研究と上記の結晶学などの標準的な手法の成果です。AlphaFold2の出現の後、200,000,000以上の構造にアクセスできるようになりました。これは独自のデータベースAlphaFold DBに loaded されており、当然DeepMindによって保持されています。

一方、Bakerの初期の研究は2000年代初期にRosettaにさかのぼります。これは物理的およびエネルギー的モデルに基づいて、タンパク質をシリコ内で（つまり、仮想的に）予測および設計するために使用されたプログラムです。彼のアプローチは、AIツール��使用しない古典的な計算アルゴリズムに基づいていました。2010年代を通じて、チームは働き続け、ランダムフォレストや回帰などの古典的な機械学習を組み込み始めました。2021年にRoseTTAFoldを起動しました。これはAlphaFold2をベースにしていますが、計算的によりアクセス可能な実装で、オープンソースで公開されています。

RFDiffusionは2023年に登場し、革新的なのは、最終的なタンパク質が特定の機能を持つようにインプットとして入力できるということです。アーキテクチャレベルでは、モデルは生成的拡散プロセスを適用します。これは基本的に入力データにノイズを追加し、そのノイズを削除できるようにネットワークをトレーニングして、RoseTTAFoldと3D座標に対する注意メカニズムを使用してタンパク質の「きれいな」構造を取得することで構成されています。このモデルは、構造を予測するだけでなく、特定の機能を持つタンパク質を設計できます。その前身と同様に、RFdiffusionもオープンソースです。

昨年5月、AlphaFold3が公開されました。これはDeepMindの製品で、Isomorphic Labs（HassabisによってもLabs founded された別の企業で、GoogleのAlphabet Inc の一部です）との協力です。このマトリックス企業。このモデルのコアは、リガンド受容体相互作用を予測できる、つまり2つの分子がどのように互いに結合するかを予測できることです。例えば、イブプロフェン（薬剤またはリガンド）がシクロオキシゲナーゼ（痛みと炎症を生成する分子を生成するタンパク質）に結合しています。

このために、モデルのアーキテクチャに変更が実装されました。RFdifussionに沿って、より複雑で多分子システムのさまざまな構成可能性を予測できるのに役立つ生成的拡散を使用されました。また、RNAまたは抗体抗原などの他の分子構造も含まれていますが、これらの場合、得られた結果はそれほど優れていません。このツールの有望な点は、現在、リガンドタンパク質相互作用をシミュレートするための標準��な手法であるドッキング計算を超えており、リガンドの組み込みの影響を受ける際のタンパク質の柔軟性をキャプチャできることです。

今後の展開

Isomorphic Labsは、AIを使用して医薬品を設計することに専念している複数の企業の1つです。今年初め、彼らはAlphaFold3に基づいて開発された最初の医薬品を2025年末までに完成させることを目指していることを発表し、神経変性疾患、心血管疾患、がんという主要な疾患に焦点を当てていると述べました。4月には最初の投資ラウンドで600万米ドルの資金調達に成功し、最近7月にはFortuneのインタビューで、同社の会長Colin Murdochは、Eli LillyやNovartisなどの大手製薬企業と協力して、ヒトでの臨床試験を開始する準備が進んでいることを発表しました。

これはかなり有望に聞こえ、もし成功すれば、通常5年から10年かかる医薬品の研究開発プロセスが完全に革命を起こす可能性があり、時間とコストの最適化だけでなく、複雑な疾患の治療にアクセスできるようになり、多数のシミュレーションと設定に基づいて医薬品を設計でき、特異的で効率的に作用するものが得られるまで進めることができます。

AIは残るために来たことを知っており、タンパク質のケースはヘルスケア分野を強化している多くの側面の1つです。既に診断を最適化した応用例があります。例えば、CTスキャンを分析するためにモデルを実装することによる肺がんの早期発見があります。アルゼンチンには、2018年に設立されたEntelaiという企業さえあり、地域でAI支援医療画像診断の最前線にいます。

ハードウェアと電子機器の開発がAIの進歩に伴わなければ、AIの進歩を考えることは不可能であることを言及しないわけにはいきません。だからこそ、量子コンピューティング（処理能力の最適化により）がま��ます共鳴しており、GoogleやMicrosoftなどの大企業が量子プロセッサーの発売を始めています。

Sabrina Bottazzi

Bio-IA: タンパク質研究に応用されたディープラーニング

タンパク質とは

タンパク質の研究方法

AlphaFoldおよびRFdiffusion

今後の展開

Related posts