从这几年的势头看起来,21 世纪,应该也是人工智能(AI)的世纪。前脚是 2016 年会下围棋的AlphaGO,后脚是 2021 年震惊结构生物学的AlphaFold2,再到如今可能影响数十亿人工作和生活的ChatGPT。
AI,已经开始创造各种新的历史了。
这几年最火的几个 AI(左图为 AlphaGO 纪录片海报,右上图为 AlphaFold 预测完全部序列蛋白质结构的数据库,右下图是 OpenAI 官网对 ChatGPT 的介绍)而这其中,对生命科学震撼最大的要属当然是前两年的 AlphaFold2:超高准确度的蛋白质结构预测能力,几乎完全改写了结构生物学的研究方式,也让相关的生物学研究更加便利。
(资料图片仅供参考)
(往期推送链接)
但是,你要是以为生命科学里的 AI 只有 AlphaFold,那你就大错特错了。
从预测到创造,AI 要颠覆蛋白质世界!
不过要展开聊生命科学里的 AI,蛋白质结构预测还是绕不过去的话题。
自从 2021 年 DeepMind 公司推出了AlphaFold2,和华盛顿大学开发出的RoseTTAFold这两项充满代表性的蛋白质预测工具之后,这个领域就变得一发不可收拾了。
首先是持续发力的 AlphaFold2。
正式发布后只过了半年多,2022 年 7 月,DeepMind 公司的 CEO,杰米斯 · 哈萨比斯 ( Demis Hassabis ) 就在新闻发布会宣布:我们已经掌握了 " 整个蛋白质世界 "(The entire protein universe)—— AlphaFold 马不停蹄地运转,成功完成了现有蛋白质数据库中全部2.14 亿种蛋白质的结构预测。
DeepMind 公司 CEO,杰米斯 · 哈萨比斯 ( Demis Hassabis ) | 图源:Jung Yeon-Je/AFP/Getty2.14 亿种蛋白质中,有 35% 被评估为高度准确,虽然这个数字看起来不高,但是按照目前实验检测的水平,全部做完也就差不多这个水平——更何况,截至目前实验检测花了几十年也只测出了 14 万种。
这些蛋白质结构,也已经发布在 AlphaFold 和欧洲生物信息学研究所 ( EMBL-EBI ) 建立的数据库中,供科研工作者们使用(https://alphafold.ebi.ac.uk/,前文图)。
但这也只是 AI 在蛋白质领域发力的开始。
我们知道,蛋白质是由 DNA 转录、翻译形成的,而 DNA 测序也远比蛋白质测序更加快速、价格更低。因此,DNA 数据库的数据量远比蛋白质数据库多。这多出来的,很关键的一部分,叫做宏基因组(Metagenome)。
在过去几年,科学家们从野外等特殊环境,比如土壤、海洋、肠道等等,直接通过测序得到了成千上万种未知,且无法培养的微生物 DNA 信息,也就是所谓的宏基因组。
宏基因组产生的过程 | 图源:Wooley JC, 2010.仅在 DeepMind 公司宣布完成了 " 整个蛋白质世界 " 三个月后,2022 年 10 月,Meta 公司(原名 Facebook)就拓宽了这个 " 蛋白质世界 " 的边界(‘ dark matter ’ of the protein universe)——他们利用自己开发的大型语言模型算法ESMFold,预测了6.17 亿种来自宏基因组信息的微生物蛋白质结构。
ESMFold 算法的准确度虽然略逊于 AlphaFold,但它的优势在于能以 60 倍于 AlphaFold 的速度去预测短序列蛋白质的结构,这就使得它在预测结构相对简单的微生物蛋白质上有了很大的优势。
6.17 亿种蛋白质结构的全览| 图源:ESM Metagenomic Atlas
这让人不禁好奇,差不多全预测完之后,AI 下一步会在蛋白质结构上做些什么?没过几天,AI 又开始颠覆生物学家的认知了——创造蛋白质。
这其实是一个和蛋白质结构预测刚好相反的问题:蛋白质结构预测是从序列到结构,而创造蛋白质是要求从我们希望得到的结构,反推出合适的蛋白质序列。过去这是个计算量巨大的工作,现在 AI 也能完成了。
四种目前常用的设计蛋白质策略 | 图片翻译自:Nature相比于大批量预测蛋白质结构,创造蛋白质的目的就更加明确——我们希望能创造出自然界不存在,但是对人类非常有用的蛋白质。
实际上,目前大部分尝试设计都很精彩,但是实验验证阶段就不那么顺利了—— AI 设计出来的蛋白质结构,往往不能像预期的那样被正确表达、合成出来。
不过设计蛋白质的尝试还在不断进步和迭代,可能在不远的将来就能够出现在我们的日常生活里。例如最新的研究中,利用ProteinMPNN和RoseTTAFold方法设计出来的蛋白质,不仅在自然界完全不存在,并且大大提高了这些蛋白质结构的稳定性,预计在未来会被用作疾病治疗的抗原抗体,或者生物化学反应所需的生物酶。
蛋白质设计的过程,通过不断改变序列让蛋白质结构趋于稳定(结构的稳定基于 AlphaFold 预测,越红代表越不稳定,越蓝代表越稳定) | 图源:NatureAI 会取代我们的大脑吗?
在生命科学研究中,还有一个难以攻克的问题:如何解读意识?我们的大脑有数十亿个神经元,它们组成的网络连接错综复杂,现有的神经科学研究虽然成果累累,但是仍然不知道人类是怎么思考的。
那,AI 可以做到吗?
也许马上就可以了。
功能核磁共振技术(fMRI)可以检测到当我们在做某件事情时大脑血流的变化,来寻找被激活的大脑区域,在过去十几年也被用于研究大脑各个脑区的具体功能。
这是 fMRI 的图像,通过和静息状态的对比,研究者可以找到被激活的脑区(红色标记) | 图源网络随着 AI 的发展,研究者近几年开始了 " 逆向 " 推导:既然我们可以检测到大脑的激活状态,那么,是不是就可以通过激活状态,来反向推出人在想什么呢?比如,可以复原出人类看到的东西?
于是研究者首先给志愿者看了成千上万张不同的图片,并测量、记录他们脑区的激活状态,作为 AI 的训练集。之后再利用训练出来的模型,来检测 AI 推测人看到的、或者想象的图片的能力。
实验设计的流程,上图为利用大量图片构建训练集,构建深度神经网络模型;下图则是基于模型,解析大脑信号产生的意识图像 | 图源:Koide-Majima N, 2023.结果其实不算特别理想。因为 fMRI 数据比较少,无法构建足够大的训练集,虽然 AI 能形成一定的轮廓,但是也仅限于给出大概的形状。
但是,如果给 AI 一点小小的文字提示辅助,它就能快速形成和真实图像高度相似的结果!
第一列是志愿者看到的图片,第二列(z)是单纯基于大脑活动检测 AI 生成的图片,第三列(c)是单纯基于文字信息 AI 做的图片,第四列则是基于二三列的信息共同生成的结果,已经依稀可以分辨出原来图片的样子 | 图源:Takagi Y, 2023.第一行为真实照片,第二行则为 AI 基于大脑活动和文字提示形成的图像 | 图源:Takagi Y, 2023.当然,这些研究的目的不是为了让 AI 理解人类,而是希望通过 AI 分析的过程,更好地理解大脑运作的方式——比如研究者们计划利用这套模型,在未来检测动物的大脑活动,来看看动物们眼中的世界会是什么样子的。
除此以外,研究者还尝试让志愿者想象一个画面,再让 AI 基于大脑活动来生成图像。虽然得到的图像更加抽象了,但是研究者认为这对于未来的心理学研究有很重要的意义。
三组图像基于想象的脑活动预测的结果,第一行为 2019 年的研究,第二行为 2023 年的研究,可以看到算法的提升 | 图源:Koide-Majima N, 2023.AI 早已深入生物医学的方方面面
当我们走向更广阔的生物医学领域,你会发现,AI 早就是个 " 老玩家 " 。
比如在基因组学研究中,虽然科学家已经产生了海量的数据,包括基因组、转录组、表观组等等,但这些分子层面的变化如何一步步影响到生物最终的表型?在过去,这个问题往往需要大量的实验验证。
而现如今,利用神经网络的方法,研究者们已经开始尝试基于 DNA 或 RNA 序列,预测其背后可能发生的各种各样复杂的调控过程,甚至到表型最终形成的状态。
基因调控是个复杂的问题,而研究者正在针对不同的调控过程利用 AI 进行预测,图中是转录因子调控基因表达的过程 | 图源:Novakovsky G, 2023.另外,随着人口的高度聚集,传染病会以更高的频率爆发,就好像最近三年肆虐全球的新冠病毒。
研究者正在考虑将 AI 引入到传染病的监测过程当中——基于早期个别病例的检测和发病情况,就可以快速预测、探知传染病出现的可能性与位置,进而 " 扼杀 " 这些有害的细菌、病毒、真菌、寄生虫等传染病疫情暴发的苗头。
AI 在未来的传染病检测中可能有着核心且重要的地位 | 图源:Agrebi S, 2020.再者,近几十年生物学研究与数据呈现出指数型增长的状态——越来越多的生物学研究与知识不断产出,但是很多研究者却难以及时消化。而像 ChatGPT 这样的语言模型,就能有效地挖掘这些海量生物学研究结果,甚至可以基于现有的各种结果提炼出新的结论(这其实是很多荟萃分析正在做的事情)。
事实上,以上提到的这些只不过是生物学研究中 AI 应用的冰山一角。
在《生命 3.0》一书中,物理学家马克斯 · 泰格马克提出了一个很有意思的比喻:假设人类的各种能力分布在一副地形图里," 算术 "," 死记硬背 " 的能力在洼地里,而 " 下棋 " 在山麓上," 科学 " 和 " 艺术 " 在山顶,而人工智能就好像不断漫上来的水面,会先把简单的能力填充,并一步步努力向上。
那么现在,人工智能的浪潮已经漫过山麓,正在冲击山顶了。
人类能力景观图 | 图源:《生命 3.0》正如我们文章里展示的各个例子,站在山顶之一的生命科学,其实正在不断被 AI" 挑战 " 着。但目前来看,AI 对于生命科学更多的不是取代,而是互相配合。
比如在 AI 最热门的结构生物学领域,虽然 AlphaFold 和 ESMFold 已经预测完了世界上几乎全部已知的蛋白质结构,但是只有大约三分之一是高度准确的。而那些不准确的其实就是结构生物学家们正在努力攻克的难题。
利用低温冷冻电子显微镜和 AlphaFold 相互配合,预测出复杂的核孔蛋白结构 | 图源:Fontana P, 2022.综合来看,至少在未来 10-20 年内,生命科学与 AI 更多的不是 " 挑战者 " 与 " 被挑战者 " 的关系,而是一种互相 " 合作 " 的配合关系——AI 会是一项有效的工具,服务于科学研究与疾病治疗。
你说更远的未来?那可能是谁都不知道的世界了。
参考资料
Callaway E. "The entire protein universe": AI predicts shape of nearly every known protein [ J ] . Nature, 2022, 608 ( 7921 ) : 15-16.
Lin Z, Akin H, Rao R, et al. Evolutionary-scale prediction of atomic-level protein structure with a language model [ J ] . Science, 2023, 379 ( 6637 ) : 1123-1130.
Callaway E. Scientists are using AI to dream up revolutionary new proteins [ J ] . Nature, 2022.
Ferruz N, Heinzinger M, Akdel M, et al. From sequence to function through structure: deep learning for protein design [ J ] . Computational and Structural Biotechnology Journal, 2022.
Wicky B I M, Milles L F, Courbet A, et al. Hallucinating symmetric protein assemblies [ J ] . Science, 2022, 378 ( 6615 ) : 56-61.
Wang J, Lisanza S, Juergens D, et al. Scaffolding protein functional sites using deep learning [ J ] . Science, 2022, 377 ( 6604 ) : 387-394.
Koide-Majima N, Nishimoto S, Majima K. Mental image reconstruction from human brain activity [ J ] . bioRxiv, 2023: 2023.01. 22.525062.
Takagi Y, Nishimoto S. High-resolution image reconstruction with latent diffusion models from human brain activity [ J ] . bioRxiv, 2022: 2022.11. 18.517004.
Novakovsky G, Dexter N, Libbrecht M W, et al. Obtaining genetics insights from deep learning via explainable artificial intelligence [ J ] . Nature Reviews Genetics, 2023, 24 ( 2 ) : 125-137.
Agrebi S, Larbi A. Use of artificial intelligence in infectious diseases [ M ] //Artificial intelligence in precision health. Academic Press, 2020: 415-438.
Fontana P, Dong Y, Pi X, et al. Structure of cytoplasmic ring of nuclear pore complex by integrative cryo-EM and AlphaFold [ J ] . Science, 2022, 376 ( 6598 ) : eabm9326.
相关精彩推荐
关键词: