Science最新封面:AI大模型跨越物种边界、解码生命“密码全书”,基因组学进入全新时代

科技   2024-11-16 18:13   广东  

来源: 学术头条

作者:田小婷  编辑:学术君


破解基因组的奥秘一直是生物科学的前沿挑战,如何让人工智能(AI)读懂 DNA 的复杂信息,并用它来设计和操控生命的“程序代码”?


通过深度学习算法,AI 不仅能识别基因组中细微的模式,还可以生成完整的基因序列,为基因编辑和新药开发提供前所未有的支持。


今日凌晨,斯坦福大学化学工程助理教授 Brian L. Hie 团队以封面文章的形式在权威科学期刊 Science 上发表了一项开创性研究成果 —— Evo,一个能够解码和设计 DNA、RNA 和蛋白质序列的大规模基因组基础模型。



据介绍,Evo 模型基于 3000 亿 DNA token 训练,能够在长序列的单碱基分辨率下进行预测和生成,尤其在跨物种的基因预测上取得了超越特定模型的表现。


Evo 模型专为捕捉生物学中两个核心方面:中心法则的多模态性和进化的多尺度特性。中心法则揭示了 DNA、RNA 和蛋白质的统一信息流,而进化跨越了分子、途径、细胞到生物体的各个层级。


研究发现,Evo 生成的多基因系统成功率接近 50%,生成的 CRISPR-Cas9 蛋白也经实验验证具有功能活性。此外,在全基因组生成方面,Evo 生成的序列在基因组组织、编码密度和天然基因组方面显示出高度的相似性。


Evo 不仅能够预测基因突变的效应,还具备生成完整基因组序列的能力,在基因组设计、药物开发和生物工程领域具有广阔的潜力。


美国 Gladstone 心血管病研究所的 Christina V. Theodoris 在一篇文章中评论道:“Evo 的意义在于,首次从进化多样性中提取出 DNA 的‘语法规则’,将基因组信息的建模提升到一个新的层次。”



Evo :解码生命指令的基因组基础模型


基因组序列的演化过程展现了生物体对环境的适应与选择,随着基因组测序技术的发展,人类逐步掌握了绘制和解析基因组多样性的能力,从而揭示了基因在健康、疾病和生物适应性中的关键角色。


DNA 作为遗传信息的载体,通过四种碱基(A、T、G、C)序列记录了生物体的生命指令。


Theodoris 在评论文章中指出:“DNA 尽管只有四种碱基的 ‘词汇’,却像一种语言,编码了调控细胞各层级活动的基础信息,从DNA、RNA到蛋白质。这些信息在指导细胞功能的同时,代代相传,驱动生物体的进化。”


Theodoris 指出,正是这种进化多样性中的 DNA 序列对比,赋予了大型语言模型学习 DNA 语法的潜力,而这一能力是此前基于单一基因组的模型难以掌握的。


然而,建模基因组信息仍面临显著挑战。当前的机器学习模型多聚焦于特定分子(如蛋白质、RNA),在长 DNA 序列的生成与预测上存在局限性,尤其是在涉及基因调控和 CRISPR 免疫等复杂系统的多分子、多尺度应用中。例如,基于 Transformer 的 DNA 模型受限于较短的上下文长度,多采用将核苷酸聚合成语言模型基本单元的方法,牺牲了单碱基分辨率。


为应对这些挑战,研究团队借鉴自然语言处理模型在长文本预测与生成中的成功案例,开发了 Evo 模型。


Evo 采用了混合模型架构 StripedHyena,巧妙地将数据控制的卷积算子与多头注意力机制相结合,克服了传统 Transformer 架构在长序列 DNA 处理中的计算成本和分辨率问题,实现了在单碱基分辨率下对长达 131072 个 token 的上下文长度的高效处理,极大提升了基因组分析的精确性和效率。


图|拥有 70 亿个参数的基因组基础模型 Evo ,可学习从单个核苷酸到整个基因组的生物复杂性。


Evo 模型使用 OpenGenome 大型数据集进行训练,该数据集包含超过 80000 个细菌和古菌基因组以及数百万个预测的噬菌体和质粒序列,涵盖 3000 亿个核苷酸 token。训练分两个阶段,先使用 8192 个 token 上下文长度,再扩展到 131072 个 token 上下文长度,参数规模达 70 亿。


通过预训练,使得 Evo 在预测突变对蛋白质和非编码 RNA 功能影响时,能够全面考虑分子间的协同作用,为基因突变的精确预测提供了可能性。


DNA 编码与自然语言中的单词和句子不同,DNA 是连续的,包含了重叠的多重信息。Theodoris 在评论文章中指出,“突变可能影响这些信息中的任何一层,因此大型语言模型需要在单核苷酸分辨率下操作,以全面理解 DNA 信息的复杂性。”


Evo 模型在单核苷酸分辨率下操作的能力,正是应对这种复杂性的核心。


研究人员对 DNA 序列建模进行 scaling laws 分析,比较了 Transformer++、Mamba、Hyena 和 StripedHyena 等多种架构。结果显示,StripedHyena 在不同计算预算下表现出更优的缩放率,能稳定训练,且在计算最优前沿之外的性能也较好,这为选择该架构作为 Evo 的基础提供了依据。


Theodoris 评论道:“Evo 采用了 StripedHyena 架构,将计算时间增加较慢的 Hyena 算子与传统 Transformer 算子结合,提升了生成质量和计算效率,且其扩展规律与自然语言、计算机视觉的规律类似,为未来的模型扩展提供了计算资源分配的最佳方式。”


多模态预测:跨物种基因突变预测的优异表现


研究人员在多种预测和生成任务中测试了 Evo 的能力,来验证它解码遗传序列并在细胞内多层次调控中执行任务的能力。


实验数据显示,Evo 在预测突变对蛋白质功能影响方面展现出领先性能,在原核生物蛋白质的 DMS 数据集中,Evo 的零样本预测能力优于其他核苷酸模型,接近某些专注于蛋白质的语言模型。


在人类蛋白质数据集上,由于初始数据量有限,表现略逊,但 Evo 在进一步训练中的改进潜力巨大,尤其在预测困惑度与适应性关联方面的发现提供了重要启示。


图|Evo 学习跨越蛋白质、ncRNAs 和调控 DNA 的功能


Evo 的跨物种预测能力不仅限于蛋白质。在非编码RNA的功能预测中,Evo 在多个 DMS 任务中的表现超越其他核苷酸语言模型。尤其在预测 5S rRNA 突变对大肠杆菌生长影响时,Evo 的斯皮尔曼相关系数达 0.60,表现出优异的突变影响预测能力。


此外,Evo 在调控 DNA 活性预测方面,以高零样本似然度显著关联启动子活性,结合监督模型后接近先进的预测方法,为非编码区域的功能研究提供了有力支持。


生成式设计:功能性 CRISPR-Cas9 与转座子系统的创建


研究发现,Evo 在生成式设计中的表现同样亮眼。经过微调的 Evo 模型可以根据提示生成多种类型的 CRISPR-Cas 系统,其中筛选出的 EvoCas9-1 被实验验证具有与天然 SpCas9 类似的体外切割活性。


除了 CRISPR 系统,Evo 生成的 sgRNA 能够提升 SpCas9 的切割效率,同时生成的 Cas9 系统部分与天然 Cas9 序列同一性较低,展示了较强的多样性与功能性。


图|Evo 可生成具有可信基因组结构的巨量级序列


在转座子生成方面,Evo 同样展现出灵活性和准确性。Evo 生成的 IS200 和 IS605 元素在体外实验中表现良好,部分元件成功实现了切除与插入功能,显示出在生成功能性转座子中的潜力。例如, IS200 类似元件的成功率接近 50%,生成的 TnpA 蛋白具有功能性的发夹结构和低同一性,显示出在转座子生成中的广泛适应性。


Theodoris 称:“Evo 在基因工具生成中的表现,显示了 AI 在基因设计的广泛应用性。”


Theodoris 认为,这项突破性的研究展现了如何在计算最优的架构下实现数据和模型规模的合理配置,不仅对未来更大规模的基因组建模有指导意义,也标志着基因组大模型与自然语言处理的跨领域创新。



不足和展望


尽管 Evo 生成的基因组规模序列(约1 Mb)在编码密度、GC含量、蛋白质结构预测、tRNA生成等方面高度接近天然基因组,但目前研究仍有瓶颈。


首先,Evo 模型在仅含 3000 亿原核生物 token 的数据集预训练,相比海量公开基因组数据只是一小部分,这导致其预测人类蛋白质突变功能效应的能力受限。


其次,与自然语言模型类似,Evo 在生成长序列时难以保证连贯性和多样性。例如,生成 CRISPR - Cas 序列时会有 cas 基因缺失或不完整问题,生成百万碱基长的基因组序列时难以涵盖全套 rRNAs 等关键 token 基因,影响序列完整性和可用性。


研究团队指出,未来将通过扩大数据集、增加模型规模、丰富训练上下文等手段提升 Evo 的性能。

在功能拓展方面,利用基因组语言模型引导多基因系统定向进化,提高多基因环境下分子结构预测的准确性,并通过优化条件和提示工程让 Evo 成为下一代序列搜索算法核心,从关系或语义层面挖掘宏基因组信息。

在数据拓展和安全方面,计划纳入真核基因组,但因其复杂性高,需在模型工程、计算资源和安全校准投入大量资源。结合大规模基因组改造进展,Evo 将推动生物工程和设计扩展到全基因组规模。


在功能拓展方面,利用基因组语言模型引导多基因系统定向进化,提高多基因环境下分子结构预测的准确性,并通过优化条件和提示工程让 Evo 成为下一代序列搜索算法核心,从关系或语义层面挖掘宏基因组信息。


在数据拓展和安全方面,计划纳入真核基因组,但因其复杂性高,需在模型工程、计算资源和安全校准投入大量资源。结合大规模基因组改造进展,Evo 将推动生物工程和设计扩展到全基因组规模。


Theodoris 预测,未来模型可能学习人类及其他真核生物基因组,从而更有效地预测基因组中长距离调控交互的影响。


他还设想,通过环境因素或细胞状态的提示,可以进一步引导 Evo,使其能够在多细胞生物中根据不同的时空条件执行特定的细胞功能。



Evo 模型的安全与伦理考量


值得关注的是,生物技术是一把双刃剑,像 Evo 这样的强大基因组基础模型在带来科研突破的同时,也引发了一些安全与伦理的讨论。


例如,恶意用户可能利用 Evo 生成抗药性或免疫逃逸的微生物,尽管实际操作难度较大,但随着基因工程工具的普及,有必要对模型使用权限进行严格监管,明确“滥用”行为的界定,以确保 Evo 的安全使用。


此外,Evo 的开源性为科研带来了透明性,但其应用资源的分配也可能引发科技不平等。


目前,主要能有效运用 Evo 的机构多集中于生物技术公司和大型科研组织,这可能加剧科技红利在特定人群中的集中。为实现全球科技红利的均衡,国际社会有必要推动资源匮乏地区的技术培训与支持,以弥合科技应用的差距。


在生态层面,尽管 Evo 本身不会直接操控基因,但其生成的基因编辑系统可能带来生态挑战。基因编辑生物体释放到自然环境中可能引发生态失衡。为此,研究团队建议,全球科学界应制定更为严格的基因工程准则,以确保科学技术在尊重自然生态的前提下造福人类。


Evo 的诞生标志着生成式基因组学进入了一个新时代。


作为一款具备跨物种基因预测和生成能力的基础模型,Evo 不仅在基因组设计、药物开发等领域展现了前所未有的潜力,也推动了生命科学领域的创新。


然而,在推动技术进步的同时,科学家们也需保持对安全、社会公平和生态保护的高度关注。通过制定完善的政策和全球协作,确保 Evo 模型的负责任应用,生成式基因组学将在未来迎来更加广阔的应用前景。


阅读最新前沿科技研究报告,欢迎访问欧米伽研究所的“未来知识库”


未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料欢迎扫描二维码或点击本文左下角“阅读原文”进入。



截止到10月25日 ”未来知识库”精选的100部前沿科技趋势报告


1. 牛津大学博士论文《深度具身智能体的空间推理与规划》230页

2. 2024低空经济场景白皮书v1.0(167页)

3. 战略与国际研究中心(CSIS)人类地月空间探索的总体状况研究报告(2024)

4. 人工智能与物理学相遇的综述(86页)

5. 麦肯锡:全球难题,应对能源转型的现实问题(196页)

6. 欧米伽理论,智能科学视野下的万物理论新探索(50页报告)

7. 《美国反无人机系统未来趋势报告(2024-2029 年)》

8. Gartner 2025 年主要战略技术趋势研究报告

9. 2024人工智能国外大模型使用手册+中文大模型使用手册

10. 详解光刻巨人ASML成功之奥妙-241015(94页)

11. CB Insights:未来变革者:2025年九大科技趋势研究报告

12. 国际电信联盟2023-2024年联合国人工智能AI活动报告388页

13. 《人工智能能力的人类系统集成测试和评估》最新51页,美国防部首席数字和人工智能办公室(CDAO)

14. 2024瑞典皇家科学院诺贝尔化学奖官方成果介绍报告

15. MHP:2024全球工业4.0晴雨表白皮书

16. 世界经济论坛白皮书《AI价值洞察:引导人工智能实现人类共同目标》

17. 瑞典皇家科学院诺贝尔物理学奖科学背景报告资料

18. AI智能体的崛起:整合人工智能、区块链技术与量子计算(研究报告,书)

19. OpenAI o1 评估:AGI 的机遇和挑战(280页)

20. 世界知识产权组织:2024 年全球创新指数(326页)

21. 美国白宫:国家近地天体防御策略与行动计划

22. 【CMU博士论文】持续改进机器人的探索,243页

23. 中国信通院:量子计算发展态势研究报告2024年58页

24. 2024年OpenAI最新大模型o1革新进展突出表现及领域推进作用分析报告

25. 【新书】通用人工智能,144页

26. 联合国:《未来契约》、《全球数字契约》和《子孙后代问题宣言》三合一

27. 世界气候组织:2024团结在科学中,守卫地球系统的未来

28. 世界经济论坛 《量子技术助力社会发展:实现可持续发展目标》研究报告

29. 人工智能科学家:迈向全自动开放式科学发现

30. 欧盟:石墨烯旗舰项目十年评估报告

31. 美国信息技术和创新基金会:美国的数字身份之路研究报告

32. 麦肯锡:2024能源转型挑战未来研究报告

33. 联合国贸易与发展会议:2024世界投资报告

34. 兰德:评估人工智能对国家安全和公共安全的影响

35. 兰德:2024评估人工智能基础模型市场的自然垄断条件

36. 经合组织:2015-2022 年生物多样性与发展融资

37. ITIF:中国半导体创新能力研究报告

38. 英国皇家学会:数学未来计划, 数学和数据教育的新方法研究报告

39. 欧盟:10年人类大脑计划创新评估报告

40. GLG格理集团:2024深度解读半导体行业关键趋势和专家洞见报告15页

41. 华为智能世界2030报告2024版741页

42. 联合国:2024为人类治理人工智能最终报告

43. 达信Marsh:2024全球科技产业风险研究报告英文版27页

44. 鼎帷咨询:2024英伟达人工智能发展战略研究报告149页

45. 【博士论文】大语言模型的测试与评价:准确性、无害性和公平性,223页pdf

46. 麦肯锡:2024世界能源产业展望

47. 世界经济论坛《太空:全球经济增长的 1.8 万亿美元机遇》

48. 世界经济论坛:世界“技术先锋”名单100家公司名单

49. 世界经济论坛:2024绘制地球观测的未来:气候情报技术创新

50. 核聚变技术作为清洁能源供应替代来源的全球发展和准备情况

51. 大模型生成的idea新颖性与人类对比研究报告(94页)

52. IQM :2024 年量子状况报告

53. 2024十大新兴技术研究报告

54. 2024地球观测 (EO) 洞察带来的全球价值(58页)

55. 2023-2024世界基础设施监测报告

56. 世界银行:2024世界发展报告,中等收入陷阱

57. 2024国际前沿人工智能安全科学报告132页

58. 斯坦福大学2024人工智能指数报告

59. 美国总统科学技术顾问委员会:《利用人工智能应对全球挑战》63页报告

60. 柳叶刀行星健康:2024地球系统安全与健康评估报告

61. 中国未来50年产业发展趋势白皮书III

62. OpenAI o1系列产品原理与安全最新研究报告(80页)

63. 国家互联网信息办公室:国家信息化发展报告2023年110页

64. 埃森哲:2024年风险研究报告-重大颠覆需要持续重塑英文版39页

65. 36氪研究院:2024年中国城市低空经济发展指数报告41页

66. 美国信息技术与创新基金会:《中国在量子领域的创新能力如何》研究报告

67. 理解深度学习500页报告

68. 鼎帷咨询:2024全球人工智能发展研究报告44页

69. 【伯克利博士论文】大型语言模型迈向能够学习和发现一切的机器

70. 《量子技术:前景、危险和可能性》45页报告

71. 英国皇家学会报告:人工智能在科学、技术、工程和数学领域的应用

72. 未来今日研究所:2024世界技趋势报告(980页)

73. 面向大规模脉冲神经网络:全面综述与未来方向

74. 大模型+知识库市场全景报告

75. 《太空力量的理论基础:从经济学到不对称战争》2024最新94页报告

76. CBInsights:2024年第二季度全球企业风险投资状况报告英文版124页

77. 英国科学院:数据管理和使用:21 世纪的治理(2024),99页

78. 兰德智库:展望2045 一项前瞻性研究探讨未来 20 年全球趋势的影响

79. 世界知识产权组织:2024年世界知识产权报告:让创新政策促进发展

80. 全球灾难风险研究所:评估大型语言模型接管灾难的风险

81. 牛津马丁学院:人工智能风险国际科学评估的未来

82. 联合国贸易和发展署:2024世界投资报告

83. 兰德公司:人工智能军事应用的新风险和机遇

84. 英国皇家学会:AI时代的科学发展趋势研究报告

85. 百页风电行业研究方法论:从中国到世界从陆地到海洋-240902,98页

86. 中国信通院发布《大模型落地路线图研究报告(2024年)》

87. 星河智源:2024年无人驾驶技术全景报告35页

88. 星河智源:2024年光刻机技术全景报告37页

89. 人形机器人行业研究方法论:特斯拉领衔人形机器人的从1到N

90. 兰德:展望2045一项关于未来20年全球趋势影响的前瞻性研究报告英文版45页

91. 《军事创新与气候挑战》2024最新152页报告

92. 麦肯锡:2024困难点:驾驭能源转型的物理现实(196页)

93. 《麻省理工科技评论》万字长文:什么是人工智能?

94. 软件与服务行业:从特斯拉智能驾驶看人形机器人发展路径

95. 中国信通院:中国数字经济发展研究报告2024年82页

96. CB Insights:2024年第二季度全球风险投资状况报告 244页

97. 脑启发的人工智能:全面综述

98. 二十年关键技术跟踪报告

99. 中国首部城市大脑系列建设标准(8项)汇编

100. 麦肯锡2024技术趋势展望报告100页


上下滑动查看更多

人工智能学家
致力成为权威的人工智能科技媒体和前沿科技研究机构
 最新文章