Navigation

人工智能帮助创下疫苗研发速度历史纪录

蛋白质的功能取决于其三维结构。 Laguna Design/Science Photo Library

借助人工智能技术,以及包括瑞士在内全球各国科研人员的创新合作,使得两种高效新冠疫苗的快速开发成为可能。

此内容发布于 2021年01月23日 - 09:00

人工智能(AI)有潜力在科学界引起突破性变革,并解决现代生物学面临的一些最复杂的问题,其中最重要的一个:预测未知蛋白质的结构来解码细胞的秘密以及对这些细胞产生影响的疾病。而蛋白质结构最近备受关注,因为其在开发新的新冠疫苗中起到核心作用,比如那些以mRNA技术为基础的疫苗。

在实验中解锁蛋白质结构是一个漫长而费力的过程,需要长达数月的研究和大量的资源。在研究新型病毒、了解其行为以及开发有效疫苗的过程中,结构信息都至关重要。科学家如今可以通过计算方法预测蛋白质结构,使得解锁的过程变得更加快速,也更加准确。

由于人工智能领域的最新进展,即使是针对难度非常大的靶蛋白质,现在也可以高精度地预测其三维结构。位于伦敦的DeepMind公司创建的人工智能系统AlphaFold2,是一项里程碑式的成就。该系统使得快速确定新冠病毒(SARS-CoV-2)的蛋白质结构成为可能,就在几个月前,我们还对这种病毒几乎一无所知。(DeepMind自2014年以来为Google公司所有)。在DeepMind这种尖端人工智能技术的帮助下,科学家们通过不懈努力和国际合作,得以迅速对疫情做出反应。据世界卫生组织(World Health Organization)公布(英)外部链接,目前已有多达60种潜在疫苗处于临床开发的不同阶段,其中三种疫苗已经得到一些国家监管机构的批准,可以大规模使用。

生物医学科研人员认为,这一刻是科学的转折点。巴塞尔大学(University of Basel)负责科研的副校长Torsten Schwede说:“这绝对是令人难以置信的成就。”他还兼任瑞士生物信息学研究所(SIB)负责人,该研究所研发的全自动蛋白质建模器SWISS-MODEL被全球科研人员广泛使用。DeepMind所取得的成就,离不开过去十年中计算结构生物学领域的发展,而SWISS-MODEL系统是其中的一个先驱。

人类和软件

为什么蛋白质在医疗和科技领域处于中心位置?蛋白质虽小却至关重要,是人类细胞和所有活生物体发生化学和生物作用的基础。构成蛋白质的氨基酸彼此链接,像“折纸”一样形成自发性组合,决定了蛋白质独特的三维结构。了解其形状可以极大地促进生物医学方面的研究,诸如人类疾病领域,所以科学界认为DeepMind取得的成就是革命性的。他们希望这项成就能够转化为对新型药物和先进疗法的研发。

SWISS-MODEL是世界上第一款预测蛋白质结构的自动化软件,能够对尚未经实验发现的蛋白质三维结构进行自主建模。1993年,生物信息学专家、SWISS-MODEL创始人Manuel Peitsch提出了计算机模拟的想法,即无需通过人工干预,使用计算机模拟来获取蛋白质的结构信息并更好地理解分子的功能。

在当时这一项目堪比科幻小说。如今,靠着越来越精密的“同源性建模”方法,即把已知蛋白质结构与未知蛋白质序列进行比较,这款软件在准确度和性能方面已经超越了人类的能力,并已在全球范围内使用。每年SWISS-MODEL都会在没有人类监督的情况下,处理超过100万份蛋白质建模请求。

蛋白质之舞

蛋白质是柔性物质,通常需要进行移动才能发挥功能。为了将蛋白质的3D模型与实验参考结构进行比较,必须“旋转”模型直至达到最佳折叠方式。但是对于柔性物质来说,这种叠加很难实现。为了解决这一问题,SWISS-MODEL团队研发了一个名为“局部距离差异测试”(LDDT)的评分系统,可以评估并预测蛋白质与模型结构重叠的程度,无论其如何运动。这种评分可以在没有人类监督的情况下进行,对于开发蛋白质自主建模方法而言非常关键。

End of insertion

现实与科幻

在过去30年里,科学家一直在尝试从蛋白质的氨基酸序列中提取到具有特征性的蛋白质三维结构。在此过程中,了解相关蛋白质的实验结构可以使得建模过程相对容易和准确。但是在难度大的情况下,蛋白质家族内部结构性信息的缺失,可能意味着需要从头开始做出非常繁复且常常不够准确的预测。但是因为AlphaFold2的出现,这个问题得到了彻底解决。

Schwede说:“我们看到DeepMind开发的AlphaFold2方法同时适用于简单和难度非常大的情况。这是一项真正的突破,因为现在人工智能可以完成人类无法完成的工作,这超过此前所有对蛋白质建模有着深入了解的人类可以达至的结果。”

DeepMind的人工智能系统AlphaFold2使用先进的机器学习技术,即深度神经网络技术,通过蛋白质的遗传序列直接预测其结构。为了达到这个目的,这一人工智能系统借助科学界提供的实验数据,学习了10万种已知蛋白质的序列和结构。现在,该系统可以对任何蛋白质做出高度准确的3D模型预测。DeepMind的非凡成就已经得到了蛋白质结构预测技术关键测试(CASP)外部链接的组织者的证实(见信息框),他们称AlphaFold2的计算和预测是“前所未有的”。

CASP、AlphaFold2和新冠病毒

蛋白质结构预测技术关键测试(CASP)是一项每两年进行一次的实验,用于评估国际高水平蛋白质结构预测领域的发展。2020年举行的最新实验(CASP14)评估了针对近100种蛋白质靶标预测的准确性,结果AlphaFold2的预测即使是在难度很大的情况下也非常准确,比如对以前未知的新冠病毒中ORF8蛋白质的预测。新冠病毒由大约30种不同的蛋白质组成,其中十余种我们都所知甚少。

End of insertion

取得进步的黄金法则

DeepMind获得成功的部分原因是科学界的大力支持以及计算结构生物学领域信息的公开交流,SWISS-MODEL也为此做出了自己的贡献。据Torsten Schwede透露,计算方法和结构数据的公开共享为DeepMind提供了必要信息,进而解决了生物信息学中最具挑战性的问题之一。

信息交流在疫情期间得到加强,体现出若想在极短时间内取得富有意义的成果,那么通力合作就十分重要。

“在这场疫情中我们学到了很多东西。科学界内部对新冠病毒信息的公开共享,使得疫苗能被以前所未有的速度开发出来,”Schwede补充道,这证明了数据孤岛(data silos)在取得科学成就过程中可能产生的负面效应。

(译自英语:樊桦)

分享此故事

加入对话

开设一个SWI帐户,您就有机会在我们的网站上发表评论和留言。

请在此登陆注册