tech

Bio-IA：深度学习在蛋白质研究中的应用

3 de oct. de 2025 — Sabrina Bottazzi

深度学习正在革新应用科学，能够处理超过2亿个蛋白质结构的详细原子模型。

10 min read

人工智能能够治愈疾病吗？答案仍然不确定,但毫无疑问有人在为此努力。为了实现这一目标,我们首先需要熟悉蛋白质的世界以及它如何通过深度学习实现了革命,以至于去年有两组科学家因开发蛋白质生成人工智能模型而获得诺贝尔化学奖。大卫·贝克因"蛋白质的计算设计"获奖;德米斯·哈萨比斯和约翰·朱梅珀因"蛋白质结构预测"获奖。

同样令人惊讶的是,在如此短的时间内取得了对健康领域产生指数级影响的相关成果。与我们所知和使用的大多数人工智能模型一样,这一切都得益于2017年Transformers架构的开发(这就是ChatGPT中T的来源);其自注意力机制能够应用于不同的领域,如文本或图像。三年后,它也被应用于本文关注的领域:蛋白质。

能够设计具有特定功能的蛋白质将代表健康产业及许多其他产业的一个突破点,就像我们现在所知的那样。开发合成抗体、在更短时间内开发疫苗或为每位患者量身定制的治疗方法的能力只是可能开始成为现实的一些应用。

什么是蛋白质

我们可以说蛋白质是生命的基本机制。不那么诗意地说,它们是由相互结合的小分子组成的非常长的氨基酸(AA)链。在自然界中只有20种,它们组成了无数的蛋白质;最小的蛋白质有大约100个AA,但也可能有由数千个AA组成的蛋白质。

这些大分子由于多样性,在整个身体中发挥不同的功能。也许最著名的是那些组成肌肉组织的(这就是为什么我们在吃肉时会谈到"摄入蛋白质"),但也存在那些有利于或加速化学反应的蛋白质,称为酶;或像血红蛋白这样的运输蛋白,负责通过血液运输氧气。

其他角色还包括作为免疫系统的一部分的抗体、信号和调节蛋白以及膜和识别蛋白。在后一个类别中,在疫情期间,位于SARS-Cov-2病毒膜上的Spike蛋白变得很出名(战争闪回)。Spike蛋白与ACE2受体有很高的亲和力,ACE2受体是一种酶——是的,另一种蛋白质——存在于肺和心脏等多个器官的细胞膜中。当这两个分子结合时——加上其他过程和更多蛋白质的参与——病毒释放其遗传��质进入细胞,导致感染。

如何研究蛋白质

了解蛋白质的结构是理解其功能的关键。例如,为了开发COVID疫苗(存在不同的技术,但在这种情况下是"重组蛋白"),在体外生成Spike蛋白,将其与SARS-Cov-2的其余部分分离。了解其结构后,会实施针对性修改,以保持其在病毒膜上存在的相同形状(融合前状态,在与人体细胞受体结合之前)。这一步很重要,因为当施用疫苗时,免疫系统以阻断与ACE2受体结合的抗体来应对Spike。这些抗体与Spike结合,从而学习响应,以防病毒进入体内。

问题是研究人员如何能分析一个有~1200个AA、长度~15纳米(即0.000015毫米,极小)的蛋白质。显然,这对基于这些分子的生物技术开发造成了瓶颈,这就是为什么人工智能模型的实施到来打破了这一切逻辑。

标准方法称为X射线晶体学,首先需要获得稳定的蛋白质并大量生产。然后必须净化样品并化学修改介质以获得晶体(这些蛋白质的数千份拷贝以重复和统一的方式排列)。这一步至关重要且复杂,因为并非所有蛋白质都能形成晶体结构。接下来是将其暴露于X射线以生成衍射图案,这揭示了这些颗粒如何与晶体相互作用。最后阶段变得非常复杂,利用傅里叶变换、电子密度图和结构建模程序。整个过程的输出最终是蛋白质的详细原子模型。

AlphaFold和RFdiffusion

在科学界引起反响的两个模型是AlphaFold(由Demis Hassabis和John Jumper开发)和RoseTTAFold/RFdiffusion(由David Baker负责)。

2010年,Hassabis与Shane Legg(他仍然是成员,尽管不再那么被引用)和Mustafa Suleyman(2019年离开公司)一起创立了DeepMind,一家专注于通用人工智能(AGI)和视频游戏领域强化学习(RL)的公司。2014年,谷歌以约5亿美元收购了它。多年后,在2018年由Jumper负责,他们推出了AlphaFold1,第一个利用深度学习应用于蛋白质开发的模型。它应用CNN来预测氨基酸对之间的几何参数(距离和角度),并能够重建蛋白质的结构。

虽然这是一个里程碑,但在定义原子位置的准确性方面仍存在局限性。转折点出现在AlphaFold2,它将其架构基于Transformers的自注意力机制(他们将这个修改后的Transformer称为Evoformer),将其应用于AA序列,捕捉AA之间的结构关系,这些AA在序列中可能相距遥远,但在3D结构中,由于折叠,它们最终变成了"邻居"。

到那时,大约已知120,000种蛋白质的结构,这是多年研究和标准技术(如上述晶体学)的结果。AlphaFold2出现后,可以访问超过2亿种结构,这些结构存储在其自己的数据库AlphaFold DB中,显然由DeepMind维护。

另一方面,Baker的初步研究可以追溯到2000年初的Rosetta,一个基于物理和能量模型的程序,用于在体外(即虚拟地)预测和设计蛋白质。其方法基于经典计算算法,不使用人工智能工具。在2010年代,该团队继续工作,开始纳入经典机器学习,如随机森林或回归,直到2021年他们推出了RoseTTAFold,它的架构基于AlphaFold2,但具有计算更易于使用的实现,并以开源形式发布。

RFDiffusion出现在2023年,其创新之处在于它允许输入最终蛋白质应具有的某些功能。在架构层面,该模型应用生成扩散过程,基本上包括向输入数据添加噪声,并训练网络能够去除该噪声,从而通过RoseTTAFold及其对3D坐标的注意机制,获得蛋白质的"干净"结构。这个模型不仅预测结构,还允许设计具有特定功能的蛋白质。与其前身一样,RFdiffusion也是开源的。

去年5月发布了AlphaFold3,这是DeepMind与Isomorphic Labs合作的产品,另一家也由Hassabis创立的公司,也是谷歌(实际上是谷歌母公司Alphabet Inc)的一部分。这个新模型的核心是它可以预测配体-受体相互作用,即两个分子如何相互结合。例如,布洛芬(药物或配体)与环氧化酶(一种产生引起疼痛和炎症的分子的蛋白质)相结合。

为此,对模型架构进行了更改,与RFdifussion一致,使用了生成扩散,这对预测更复杂的多分子系统的不同配置更有用。它还包括其他分子结构,如RNA或抗体-抗原,尽管对于这些情况,获得的结果不如以上那么出色。这个工具的前景在于,它目前超越了标准技术——计算��接,用于模拟配体-蛋白质相互作用,因为它可以捕捉蛋白质受到配体影响时的灵活性。

即将到来的事情

Isomorphic Labs 是众多致力于利用人工智能设计药物的公司之一。今年初，该公司宣布计划在 2025 年底前推出首个基于 AlphaFold3 开发的药物，并且正在 重点关注主要疾病：神经退行性疾病、心血管疾病和肿瘤学疾病。4 月份，他们在首轮融资中获得了 600 万美元的融资，最近在 7 月份，其总裁 Colin Murdoch 在 接受《财富》杂志采访 时宣布，他们已准备好与 Eli Lilly 和 Novartis 等主要制药公司合作开始人体临床试验。

这一切听起来很有希望，如果成功的话，通常需要 5 到 10 年的药物研究和开发流程可能会被彻底改革，不仅优化时间和成本，而且还可以用于治疗复杂疾病，能够 基于大量模拟和配置来设计药物，直到找到作用更具体、更高效的药物。

我们知道人工智能已经到来并将长期��在，蛋白质案例是 人工智能正在推动医疗健康领域发展 的众多方面之一。已经有一些案例中它的应用优化了诊断，例如通过实施模型来分析 CT 扫描实现 肺癌的早期检测。在阿根廷，甚至存在 Entelai，一家成立于 2018 年的公司，它在该地区的人工智能辅助影像诊断领域处于最前沿。

我不想忽略这一点，在硬件和电子设备的发展支持下，人工智能的进步是不可能的，这就是为什么量子计算（凭借其处理能力的优化）越来越引起共鸣，Google 和 Microsoft 等大公司开始推出量子处理器。

Sabrina Bottazzi

Bio-IA：深度学习在蛋白质研究中的应用

什么是蛋白质

如何研究蛋白质

AlphaFold和RFdiffusion

即将到来的事情

Related posts