生物学:大型语言模型的下一个前沿


 

 

在机器学习等AI领域,尤其随着ChatGPT这样的应用风靡,全球范围内寻求最先进技术(SOTA)的探索正热火朝天,也推高了将新技术与生物制药结合的呼声。

 

借助智能化工具实现新药开发效率的提高,这一理念无疑是诱人的。根据一项分析,2011年至2020年,6151种从I期到最终获批的药物平均开发周期是10.5年。至于成本,均值也早已超过10亿美元。并且,耗时费钱的趋势仍未得到控制。这种困扰多少可以从AI制药赛道的资金流动中有所感知。

 

2018年至2021年,AI制药投融资市场进入快速发展阶段。Deep Pharma Intelligence梳理了2023年第一季度的行业动向,打着AI制药旗号的公司已超过800家,相关合作也逾100项。

 

然而硬币存在另一面。至今,尚未出现一款成功获批的药物,来证明这个跨界融合的故事所言非虚。不一而足的入局者们,同样避免不了回应当前盛景或是“虚火”的隐忧。

 

正因如此,大型语言模型(LLM)的出现和迭代,才更令人期待。至少在ChatGPT上,人们似乎已经领略了AI所能掀起的真切变革。随之而来的问题是,我们距离应许之地还有多远?

 

7月,基于对不同领域专家的采访,Forbes通过一篇长文来回应业界关切。这篇文章畅想,LLM令我们正处于该领域新一轮变革的风口浪尖。假以时日,我们或许可以用AI生成全新的蛋白质序列,以此佐证那个老生常谈的预言:二十一世纪是生物学的世纪。

 

像GPT-4这样的大型语言模型(LLM),凭借其对自然语言的惊人驾驭能力,如今已风靡全球。然而,对于LLM来说,最重要的长期机会将是一种完全不同的语言:生物语言。

 

在过去的一个世纪里,生物化学、分子生物学和遗传学的研究取得了长足的进步,其中一个引人注目的主题是:生物学原来是一个可破译、可编程,在某些方面甚至是数字化的系统。

 

DNA使用四个变量——A(腺嘌呤)、C(胞嘧啶)、G(鸟嘌呤)和T(胸腺嘧啶),为地球上每一个生物体编码完整的遗传指令。与之相比,现代计算机系统使用两个变量——0和1,来编码世界上所有的数字电子信息。后者是二进制的,前者是四进制的,但它们在概念上有着惊人的重叠;两个系统都可以恰当地视为数字系统。

 

再举个例子,每个生物体内的蛋白质,都是由按特定顺序连接在一起的一维氨基酸串组成和定义的。蛋白质的长度从几十个到几千个氨基酸不等,有20种不同的氨基酸可供选择。这也是一个非常容易计算的系统,语言模型非常适合学习。

 

DeepMind创始人、首席执行官Demis Hassabis说:“在最基本的层面上,我认为生物学可以被视为一个信息处理系统,尽管它异常复杂、动态变化。正如数学被证明是物理学的正确描述语言一样,生物学也有可能被证明是AI应用的完美机制类型。”

 

例如,通过输入互联网上的所有文本,像ChatGPT这样的工具学会了就任何可以想象到的话题进行深思熟虑、细致入微的对话。通过摄取数十亿幅图像,Midjourney等文本生成图像(text-to-image)模型学会了按需制作创造性的原始图像。

 

而将LLM指向生物数据——让它们学习生命语言——将开启各种可能性,或许相比之下,它们令自然语言和图像方面的成就显得微不足道。

 

具体来说,这幅图景会是什么样子呢?近期内,在生命科学领域应用LLM最有吸引力的机会,是设计新型蛋白质。

 

 

1
生命钥匙

蛋白质是生命的核心。正如著名生物学家Arthur Lesk形容的:“在分子尺度的生命剧中,蛋白质是行动的中心。”它们几乎参与了每种生物体内发生的所有重要活动:消化食物、收缩肌肉、将氧气输送到全身、攻击外来病毒。

 

总的来说,蛋白质之所以如此重要,是因为用途广泛。它们能够承担大量不同的结构和功能,远远超过任何其他类型的生物大分子。这种令人难以置信的多功能性,是由蛋白质的构成方式直接决定的。

 

每种蛋白质都由一串按特定顺序排列的氨基酸组成。根据一维氨基酸序列,蛋白质折叠成复杂的三维形状,从而实现其生物功能。

 

蛋白质的形状与其功能密切相关。举个例子,抗体蛋白折叠成的形状使它们能够精确地识别和锁定异物,就像钥匙插入锁里一样。再比如,作为加速生化反应的蛋白质,酶具有特殊形状,能与特定分子结合,从而催化特定反应。

 

因此,了解蛋白质的折叠形状,对于理解生物体的功能以及生命本身的运作方式至关重要。

 

半个多世纪以来,仅凭一维氨基酸序列确定蛋白质的三维结构,一直是生物学领域的一大难题。这个被称为“蛋白质折叠问题”的难题,困扰了好几代科学家。

 

2007年,物理学家Pablo Echenique将蛋白质折叠问题描述为“现代科学中最重要但尚未解决的问题之一”。Echenique曾因一篇关于蛋白质的论文而获得物理学博士学位。在介绍蛋白质折叠的文章里,他认为,柔性分子的构象行为只不过是一个复杂的物理问题,用于物理领域的数学和计算工具有助于为前述难题提供答案。

 

 

 
2
天作之合

2020年末,一个名为AlphaFold的AI系统解决了蛋白质折叠问题,成为生物学和计算机领域的分水岭。

 

根据当时的竞赛主办方披露的信息,当一个解决方案的GDT分数(用以衡量准确性的标准)在90分左右,就可认为与人类实验方法相比具备足够竞争力。而AlphaFold的得分是92.4,跟实验的误差在1.6。

 

AlphaFold由Alphabet旗下的DeepMind打造,它能正确预测蛋白质的三维形状,精确到约一个原子的宽度,远远超过人类设计的任何其他方法。

 

不夸张地说,AlphaFold的意义无论如何强调都不为过。长期从事蛋白质折叠研究的专家John Moult,对此作了很好的总结:“这是AI首次解决了一个重要的科学问题。”

 

然而,说到AI和蛋白质,AlphaFold只是一个开始。

 

AlphaFold并非使用LLM构建。它依赖于一种较早的生物信息学结构,即多序列比对(MSA),将蛋白质序列与进化过程中相似的蛋白质进行比对,从而推断出其结构。

 

就像AlphaFold所表明的那样,MSA可以很强大,但也有局限性。

 

首先,MSA的速度慢,计算密集,因为它得参考许多不同的蛋白质序列,才能确定任何一种蛋白质的结构。更重要的是,由于MSA需要大量在进化和结构上相似的蛋白质才能推理出一个新的蛋白质序列,因此它对所谓的“孤儿蛋白质”的作用有限——通常,这种蛋白质很少或没有相近的类似物。这种孤儿蛋白质约占所有已知蛋白质序列的20%。

 

最近,研究人员开始探索一种有趣的替代方法:使用LLM而不是MSA,来预测蛋白质结构。

 

跟处理英语单词文本这类LLM不一样,“蛋白质语言模型”是根据蛋白质序列训练出来的,并展现出惊人的能力,能够直观地发现蛋白质序列、结构和功能之间的复杂模式和相互关系。例如,它可以展现改变蛋白质序列某些部分的某些氨基酸会如何影响蛋白质折叠成的形状。

 

可以说,蛋白质语言模型能够学习蛋白质的语法或语言学。

 

蛋白质语言模型的想法可以追溯到2019年,George Church发布的一篇论文中,介绍了其在哈佛大学实验室开展的UniRep工作。不过UniRep使用的是长短期记忆人工神经网络(LSTM),而非当今最先进的变换器(transformer)模型。

 

 

2022年底,另一家科技公司Meta首次推出ESM-2和ESMFold,这是迄今为止发布的规模最大、最复杂的蛋白质语言模型之一,共有150亿个参数。其中,ESM-2是LLM本身,ESMFold是其相关的结构预测工具。

 

在预测蛋白质三维结构方面,ESM-2和ESMFold的准确度与AlphaFold不相上下。但与AlphaFold不同的是,该组合能够根据单个蛋白质序列生成结构,而不需要输入任何结构信息。因此,前者比AlphaFold快60倍。

 

这意味着什么吗?想象一下,当研究人员希望,在蛋白质工程工作流程中同时筛选数百万个蛋白质序列时,该速度优势就会产生巨大的不同。对于缺乏进化相似类似物的孤儿蛋白质,ESMFold还能比AlphaFold得出更准确的结构预测。

 

 

语言模型对蛋白质“潜空间”(latent space)的概括理解能力,为蛋白质科学带来了令人兴奋的可能性。潜空间通常通过机器学习进行拟合,然后可被用作机器学习模型的特征空间,包括分类器等监督预测器。

 

但自AlphaFold问世以来,业界在概念上取得了更大的进步。

 

简而言之,这些蛋白质模型可以将工作流倒转:ESM-2等模型不是根据蛋白质的序列来预测蛋白质的结构,而是调换方向,用于根据所需特性,生成自然界不存在的全新蛋白质序列。

 

 
3
发明蛋白

一个需要看到的现实是,当今世界上存在的所有蛋白质,仅占理论上可能存在的所有蛋白质的极小一部分。而LLM的机会就在这里。

 

举几个粗略的数字。据估计,存在于人体中的全部蛋白质,即所谓的“人类蛋白质组”的数量大约在8万到40万之间。与此同时,理论上可能存在的蛋白质数量大约在10^1300左右——这是一个深不可测的庞大数字,比宇宙中原子的数量还要多出许多倍,尽管并非所有这10^1300种可能的氨基酸组合都会产生生物上可行的蛋白质。

 

数百万年来,曲折的进化过程偶然发现了数以万计的可行组合。可这仅仅是冰山一角。

 

用蛋白质AI初创公司Generate Biomedicines联合创始人Molly Gibson的话来说,“大自然在生命历史中采样的序列空间量,几乎只相当于地球上所有海洋中的一滴水”。

 

人类有机会改进自然。毕竟,自然选择的进化虽然是一种强大的力量,但它并不是无所不知的;它并不预先计划;它并不以自上而下的方式进行推理或优化。它是随机的、机会主义的,传播的是碰巧有效的组合。

 

利用AI,研究人员可以首次系统、全面地探索蛋白质领域的广阔未知领域,从而设计出与自然界中从未存在过的任何蛋白质都不同的新的蛋白质,以满足我们的医疗和商业需求。

 

更具体地畅想,科学家将能够设计出新的蛋白质疗法,以解决人类从癌症到自身免疫性疾病、从糖尿病到神经退行性疾病的各种疾病。并且,展望医学以外的领域,我们也有望创造出新的蛋白质类别,在农业、工业、材料科学、环境修复等领域实现变革性应用。

 

LLM并非唯一解。一些利用深度学习进行全新蛋白质设计的早期尝试,就并未使用LLM。

 

其中一个突出的例子是ProteinMPNN,它诞生于华盛顿大学在人工设计蛋白领域领军人物David Baker教授的闻名遐迩的实验室。ProteinMPNN架构不使用LLM,而是主要依靠蛋白质结构数据来生成新型蛋白质。

 

Baker实验室最近发布了RFdiffusion,这是一种更先进、更通用的蛋白质设计模型。顾名思义,RFdiffusion是利用扩散模型(diffusion model)构建的,这种AI技术与Midjourney和StableDiffusion等文本生成图像模型相同。RFdiffusion可以生成新颖的、可定制的蛋白质“骨架”,即蛋白质的整体结构支架,在此基础上可以对序列进行分层。

 

 

ProteinMPNN和RFdiffusion等以结构为重点的模型取得了令人瞩目的成就,推动了基于AI的蛋白质设计技术的发展。然而,得益于LLM的变革能力,我们可能正处于该领域新一轮变革的风口浪尖。

 

与其他蛋白质设计计算方法相比,为什么说语言模型是一条前景光明的道路?一个重要原因是:缩放,或者说扩展性。

 

 
4
缩放法则

最近AI取得的巨大进步背后的关键力量之一,就是所谓的“缩放法则”(scaling laws,也有译作扩展定律)

 

该概念由约翰·霍普金斯大学物理学教授Jared Kaplan等人在2020年提出,它导向的结论之一是,模型的性能强烈依赖于模型的规模,具体而言,模型的效果与随着参数数量、数据集大小和计算量这三者的指数增加而线性提高。

 

 

语言模型的规模每增加一个数量级,都会展现出非凡的、意想不到的、新出现的能力,这些能力超越了在较小规模下可能实现的能力。质言之,LLM参数数量、训练数据和计算能力的持续增加,会带来几乎令人难以置信的性能提升。

 

近年来,正是OpenAI对缩放法则的投入,使该公司跃居AI领域的前沿。从GPT-2到GPT-3再到GPT-4,OpenAI建立更大的模型,部署更多的计算,并在更大的数据集上进行训练,这超过了世界上任何其他组织,从而释放出令人惊叹的、前所未有的AI能力。

 

缩放法则与蛋白质领域有何关联?

 

过去二十年来,由于科学上的突破,基因测序的成本大大降低,而且更容易获得,因此可用于训练AI模型的DNA以及蛋白质序列数据量呈指数级增长,远远超过了蛋白质结构数据。

 

蛋白质序列数据可进行标记化处理,就所有意图和目的而言,可被视为文本数据;毕竟,它是由按一定顺序排列的氨基酸线性字符串组成的,就像句子中的单词一样。LLM只需在蛋白质序列上进行训练,就能对蛋白质结构和生物学产生细致入微的理解。

 

因此,由LLM推动这一领域大规模扩展的时机已经成熟——这些努力可能会为蛋白质科学带来惊人的新见解和新能力。

 

第一项使用基于变换器的LLM设计全新蛋白质的研究是ProGen,由Salesforce Research于2020年发布。最初的ProGen模型包含12亿个参数,采用涵盖2.8亿个蛋白质序列的数据集和编码不同注释的条件标签训练而成。在最高水平上,构象能量分析显示,ProGen生成的蛋白质的能量接近于天然蛋白质,表明新的蛋白质满足研究人员所期望的结构和推测的功能。

 

 

ProGen的首席研究员Ali Madani,后来成立了一家名为Profluent Bio的初创公司,致力于推进LLM驱动的蛋白质设计技术并将其商业化。

 

在率先将LLM用于蛋白质设计的同时,Madani也清醒地认识到,以原始蛋白质序列为基础训练的现成语言模型本身,并不是应对挑战的最有效方法。结合结构和功能数据至关重要。

 

“蛋白质设计领域的最大进步将体现在对不同来源的数据进行仔细整理,以及能够灵活学习这些数据的多功能建模这两者之间的交叉点上,”Madani补充说,“这就需要利用我们所掌握的所有高信号数据——包括从实验室获得的蛋白质结构和功能信息。”

 

另一家应用LLM设计新型蛋白质疗法的早期初创公司是Nabla Bio。Nabla的建立源自George Church在哈佛大学的实验室研究成果,由UniRep背后的团队领导,专门研究抗体。如今,60%的蛋白质疗法都是抗体疗法,全球销售额最高的两种药物也是抗体疗法(艾伯维的Humira和辉瑞的Keytruda),因此,Nabla的选择也就不足为奇了。

 

不过,Nabla决定不开发自己的疗法,而是向生物制药合作伙伴提先进技术,作为帮助他们开发自己药物的工具。

 

随着业界逐渐意识到,蛋白质设计是一个巨大的、尚未被充分开发的领域,可以应用LLM看似神奇的能力,预计在未来数月和数年内,我们还将见证更多相关创新项目的涌现。

 

 
5
前行之路

Frances Arnold在2018年诺贝尔化学奖的获奖感言中说道:“今天,我们可以读取、书写和编辑任何DNA序列,但我们无法创作它。生命密码是一部交响乐,由无数演奏者和乐器演奏出错综复杂的美妙乐章。也许我们可以从大自然的作品中剪切和粘贴片段,但我们不知道如何为单个酶通道编写小节。”

 

就在五年前,这还是事实。

 

AI也许会让我们有能力,在生命史上第一次真正从头开始编写全新的蛋白质及其相关的遗传密码,专为我们的需求而生。这是一种令人敬畏的可能性。

 

这些新型蛋白质将成为治疗从传染病到癌症等各种人类疾病的药物;它们将帮助基因编辑成为现实;它们将改变材料科学;它们将提高农业产量;它们将中和环境中的污染物;还有更多我们无法想象的东西。

 

由AI,尤其是LLM驱动的蛋白质设计领域仍处于起步阶段,尚未得到最终的证实。此外,科学、工程、临床和商业领域仍面临巨大障碍。将这些新疗法和产品推向市场需要数年时间。

 

然而,从长远来看,AI的市场应用大有可为。

 

我们还可以放大视野。全新蛋白质设计并不是LLM在生命科学领域唯一令人兴奋的机遇。语言模型可用于生成其他类别的生物大分子,特别是核酸。例如,一家名为Inceptive的初创公司正在应用LLM生成新型RNA治疗药物。

 

 

其他研究团队的目标更为宽广,旨在建立通用的“生物学基础模型”,能够融合基因组学、蛋白质序列、细胞结构、表观遗传学状态、细胞图像、质谱分析、空间转录组学等各种数据类型。而最终目标,是超越蛋白质等单个分子建模,进而模拟蛋白质与其他分子的相互作用,然后模拟细胞、组织、器官,最终模拟整个生物体。

 

建立一个能够理解和设计复杂生物系统中每个复杂细节的AI系统,这个想法令人匪夷所思。不过假以时日,这一切都可能唾手可得。

 

从相对论到量子力学的发现,从核弹到晶体管,物理学的根本性进步定义了二十世纪。正如许多现代观察家所指出的,二十一世纪正在成为生物学的世纪。在未来的几十年里,AI和LLM将在揭开生物学的秘密和释放其可能性方面发挥核心作用。

 

在此之前,请系好安全带。

 

参考文献:
1.The Next Frontier For Large Language Models Is Biology;Forbes
 
2.Introduction to protein folding for physicists;Contemporary Physics

 

3.ProGen: Language Modeling for Protein Generation;bioRxiv

 

4.De novo design of protein structure and function with RFdiffusion;Nature

 

5.Large Scale Foundation Model on Single-cell Transcriptomics;bioRxiv

Recommended content

Contact us

Address:Room 62, 6th Floor, Building 1, Zone 1, No.186 South 4th Ring West Road , Fengtai District, Beijing

Tel:010-83634390

Address:Address:Room 1704, Building E, Nanotechnology Park, SIP, Suzhou, Jiangsu Province

TONACEA

图片名称

XIEYI Release

图片名称

TONACEA Biotech

图片名称

TONACEA Micro Service

图片名称

©2022 TONACEA(beijing)Technology Development Co., Ltd