大模型重构生命科学！最大基础模型面世，解锁DNA超长序列，参数规模达2100亿

科技 2024-11-06 14:42 北京

赛小生发自凹非寺
量子位 | 公众号 QbitAI

生命科学领域，已经率先进入到基础模型时代！

今年，化学诺贝尔奖授予了AlphaFold，AI+Science受到空前的关注。人们惊叹于，仅仅是一个蛋白质结构预测模型，就能释放出如此巨大的行业潜力。

就在当下，在第三届中国生物计算大会上，全球规模最大的生命科学基础模型横空出世——

xTrimo V3，参数规模高达2100亿，覆盖蛋白质、DNA、RNA、细胞等七大主流模态。背后玩家正是来自李彦宏孵化创办的百图生科。

与应用于其他行业的基础模型有所不同，他们解码的是生命语言，而非自然语言，意味着不仅能处理复杂的生物序列，为药物研发、精准医疗等领域助力；还能开启更多的前沿突破，比如在基因进化、合成生物学、设计/创造生命等方面创造价值……

这样一个与我们每个人都息息相关的时代课题，如今竟然先于其他垂直领域，迎来了首个千亿基础模型。

并且，正像当时OpenAI推出提供免费Token一样，它也限时提供免费Tokens，今年年底之前成功注册的用户，即可获得2000 credits。

什么概念呢？这相当于用户可以有机会完成1300万氨基酸Tokens的微调训练任务。

来看看究竟这个微观世界的基础模型到底是怎么一回事？

大模型时代下的生命语言解码

在第三届生物计算大会上，大模型是整场大会出现的关键词，而大模型在生命科学领域应用的范式，也成为各个领域专家的共识——

生命科学领域有着明显的特点，实验验证过的有标签的数据很贵很少，已有的数据又是不同场景，很难用来直接训练任务模型。但它却拥有着海量未标注数据，像基因组数据，蛋白质序列等，这些数据非常适合用来做预训练基础大模型。

大模型基于这些数据预训练之后，再结合少数标注过生物实验室数据，学习到对生命系统深层次表征，进而完成像蛋白质结构预测、基因序列分类等下游任务。

而百图生科xTrimo系列模型，正是其中最具代表性的范式实践。

此次大会上，百图生科xTrimo系列模型全面升级到V3版本，有着三大技术亮点值得关注。

首先从大模型基础属性维度来看，这是目前全球规模最大的生命科学基础大模型，总体参数规模达到了2100亿。

参数规模越大，意味着蕴含更广泛的知识和拥有更强的泛化能力，因此在各种关键问题和任务的解决上有更强的性能和准确性。

换句话说，大模型时代Scaling Laws，其实在生命科学领域也同样奏效。

截至目前，xTrimo基础大模型平台在200个任务模型达到SOTA水平，并利用这些任务模型实现了从头设计全新蛋白质、靶点发现等创新生物项目的突破。

该平台已助力开发了20余种前沿抗体和酶，实现10余个创新靶点及靶点组合的挖掘，并都经过实验验证，进入到临床前研发等后续阶段。

再从应用维度来看，此次基础大模型的发布是个模态全家桶，这是解决行业问题的新利器。

此次发布的xTrimo V3，覆盖DNA、RNA、蛋白质、细胞、小分子、生物视觉和生物知识文本等生命科学7个主流模态。

在上一版本已有蛋白质和细胞两大领域基础之上，拓展到了基因组学、转录组学、细胞复杂任务、影像分析和文本分析等领域，从而支持从分子早期研发到生产放大再到后期实验分析的全流程AI建模需求。

而除了实现整个探索过程的AI赋能，在一些场景下还会诞生全新的解决路径。这是因为多模态的覆盖，让大模型跨模态协作成为了可能。

百图生科技术副总裁张晓明列举了靶点发现这一例子。

现在在细胞尺度多模态大模型视角上，靶点发现也有了新探索，可以先对未扰动的细胞进行蛋白质和细胞的两种模态的表征，同时扰动action可以基于生物基因注释的文本模态生成扰动的编码，在图模型中预测扰动后表达量的变化以及推荐潜在的靶点，最后再通过细胞生物视觉的模型辅助做细胞功能的验证。

这是一个包括蛋白、细胞、文本和视觉四个模态的协作典型场景，在效果和效率上都有显著的提升。

而具体到各个模态的部署，我们也能看到很强的应用属性，为解决问题而生。

比如首个引入MoE架构的蛋白质大模型，参数达到千亿规模。

我们都知道，通用场景下MoE架构有利于垂直细分领域的处理，同样在蛋白质领域也存在这样的情况，比如像抗体抗原、蛋白酶等，这样一来在各种具体下游任务下，实现更好的性能和准确率。

还有像DNA大模型序列长度跃升至128K，可以更好的捕获远端调控信息，实现了超长序列解码生命的可能性。

这有点类似于通用大模型具备了长文本读取能力，由此拓展了大模型能力的边界，更多场景得到释放，比如总结报告、故事创作，解放人们的生产力。

最后，再从整个行业生态来看，百图生科已经占好生命科学AI模型提供商这一生态位——

一边是专业严谨、有着自己独特语言的科学行业，还有大量的知识空间等待人类去探索。一边是价值逐渐明晰、势要重塑一切的大模型范式。百图生科要做的正是他们的连接器。

此次除了基础大模型的发布，他们还建设了个一站式模型平台，相当于生命科学领域的大模型基础设施。

训练端，他们给出生物多模态的统一训练框架，从跨模态预训练、到下游任务的微调都可以完成。

而在推理端，他们为该领域量身定制地打造了生物与AI融合的计算引擎。

这个值得说道说道。因为在我们日常大模型语境中，可能只需要针对AI模型本身进行推理优化，就能在性能和成本上取得很好的效果。但在生物计算实际应用场景中，模型运行20分钟，其中推理仅占1分钟，其余时间都用于执行生物计算工具。

因此要打造推理引擎，需要将生物HPC优化和AI模型推理优化都要兼顾到，以及让他们在流水线上并行运行起来。据介绍，这在多个场景实现十倍以上推理性能的提升。

此外，还配备了系列工具链：包含面向多种数据场景和用户需求的Model Builder模块，支持模型管理和组装的Model Hub模块，以及加速模型调用和物理计算的Model Booster模块等。

而基于过去四年行业探索经验，他们也系统梳理出了两大行业解决方案：药物研发、生物制造，为合作伙伴提供全方位的AI模型服务，加速大模型的应用。

以药物研发为例，他们就能客户定制化构建模型、也能支持像蛋白设计这样的服务。

比如他们就利用亲和力模型设计出多个亲和力梯度的抗体，并定制AND GATE算法，组合双抗实现靶向杀伤肿瘤细胞。通过高通量亲和力检测和 100+ 复杂构型双抗的表达与验证，最终交付了具有更佳治疗窗口的双抗。

过去四年间，百图生科的全球用户已积累超过300家，包括跨国药企、产业巨头、大型CRO、明星BioTech、科研机构等，总订单超20亿美元，可以说初步完成了技术和商业验证的闭环，实现产业的初步积累。

如今有了强大的基础模型底座，他们的目标行业也指向了更广泛的领域，包括生物医药、生物制造、科研教育等。

这其实也是百图生科选择这一生态位的具象展现，那就是链接起更多的生态伙伴参与到大模型应用的进程中。

如今生命科学领域大模型正在加速落地应用，但与此同时挑战也同样艰巨，需要生态伙伴携手来解决。

CEO刘维就举了个例子，其数字化和智能化在很多方面尚未实现。诸多研发工作仍然主要以所见即所得的方式进行——

仍然以专家经验和人类先验假设为基础进行实验验证假设，或者以在自然界中发现然后进行实验改造为主。

而只有越来越多的企业完成大模型的赋能，才能带动整个行业的数字化智能化。

Foundation Model+Science正在到来

借着百图生科生命科学基础大模型的发布，也是时候对「大模型如何赋能生命科学领域」做个阶段性梳理。

首先，跟其他行业一样，生命科学领域正迎来全行业的重塑，甚至比其他领域更快。

仅过去一年时间，传统药企巨头拥抱AI，像辉瑞、礼来等全球药企巨头任命首席AI官；科技巨头纷纷出手布局，诸如谷歌Meta英伟达也早已相关探索。还有像赛诺菲，这种全球TOP10药企愿意砸超10亿美金与百图生科共同打造AI模型。

各种生命科学大模型也纷纷被顶刊所接收，比如像百图生科此前发布的单细胞大模型、千亿参数蛋白大模型等工作就多次登上Nature子刊封面和学术顶会。相较于其他领域，这么一个古老的领域的发展速度，直接来了个弯道超车。

而从时间维度来看，计算对生命科学的赋能，经历从单模态单尺度到多模态多尺度的赋能。而在大模型语境下，就是从“AI+”到“大模型+”的时代，如今AI在生命科学里的创新应用正在迎来「寒武纪爆发」临界点。

一切以AlphaFold为节点。

传统依靠实验室工具和分析手段的方式，价格高昂耗时也长，无法充分发挥数据背后的价值。

随着AI深度学习的出现，这个问题迎来了转机。DeepMind从人类已确定的17万种蛋白质序列库中训练学习得到AlphaFold，实现了之前远超其他所有团队的准确率，开辟了“先假设-再验证-最后优化假设”的干湿实验循环闭环。

这时候，生命科学领域迎来了他们自己的AI1.0时刻。

不过当时还只是聚焦于单链蛋白质单一模态，预测准确率还有大量的提升空间，海量的生物数据还没有被充分挖掘。

而随着自监督范式Transformer架构、扩散模型等进展的出现，让海量各种模态的数据处理、跨模态多尺度协作处理成为了可能，更多潜在的下游场景被实现，也就是所谓AI2.0时刻。

就像最新的AlphaFold3，实现了从单链蛋白质结构预测到所有生命分子的结构和相互作用的跨越。

其次，大模型赋能生命科学不仅在降本增效，还在于创新创造。

大模型对千行百业的赋能核心就在于降本增效，同样在生命科学领域，大模型可以快速处理和分析大量的生物数据，帮助科研人员更高效地筛选潜在药物靶点、设计药物分子以及预测药物效果，从而在一定程度上降低研发成本、提高研发效率。

不过这只是大模型所带来的最基本价值。创新创造才是大模型赋能生命科学的核心价值。

生命科学的技术壁垒很大程度上源于生命本质信息的高度复杂性，而这些信息往往隐藏在生命语言中。因此相比于常规自然语言模型，生命科学大模型往往肩负着更为重大的使命，那就是深入到生物进化、基因序列等生命领域的核心挑战。大模型就是像是一把钥匙，打开了一扇通往生命奥秘深处的新大门。

而一旦实现生物数据和序列的解码，就给当前一些重大难题的解决带来了可能性。比如精准医疗/个性化医疗。

而在基因组学、遗传病预测和精准医疗等领域，信息的准确性至关重要。但传统的方法常常将DNA切割成较小的片段进行分析，导致关键信息的丢失。

但现在百图生科模型所实现的DNA超长序列，就能完整保留所有基因信息。这让精准的基因分析成为可能，有助于制定出最适合患者个体的治疗方案。

例如，在癌症治疗中，完整的基因序列信息可以帮助确定癌细胞中特定的基因突变，从而为靶向治疗提供精确的靶点，提高治疗效果。

大模型带来的除了数据处理能力，还有强大的泛化能力，给行业问题解决带来全新的思路。

生命语言远比自然语言复杂，模态之间存在清晰的转化和层级关系。比如DNA、RNA、蛋白质之间的中心法则；细胞图像，细胞组学，细胞基因表达，功能注释文本之间对于细胞的联合表征；从单细胞、多细胞到构成组织。

因此大模型能做的就不仅对现有生物数据的简单解析，更重要的是能够推断未知问题。

比如预测生物结构背后的功能——

可以预测某种新型蛋白质的功能，进而为设计全新的药物或者生物技术提供可能，而这是传统研究方法很难做到的创新突破。

还有像药物发现，以往的研发可能更多地依赖于既有经验和有限的实验结果，但大模型可以通过对大量生命数据的学习和分析，提出以前未曾想到的药物靶点或者研发方向。

而拥有了预见生命科学未知领域的 “慧眼”之后，也就为合成生物学，或者更为广泛的生物制造，带来了可能性。

比如在酶的设计和菌种改造方面，AI模型通过学习现有的生物数据，生成新的酶序列，并预测其催化功能。通过这种方式加速了生物制造中的酶催化过程，显著提高了生产效率，并降低了制造成本。

再往前一步，整个工业制造领域，包括农业、食品、化工、材料、能源等行业都能被赋能覆盖。

从理解生命到预测生命再到设计、创造生命，这也是大模型为生命科学带来创新创造价值的重要体现。

它从根本上改变了生命科学的研究路径和思维方式，推动生命科学朝着更深入、更具前瞻性的方向发展。

相对于其他行业，在生命科学领域的应用价值更大、前景更高，也就更是一件长期主义的事情了。

这需要生态合作，共同推动产业发展。更需要像百图生科这样的玩家站出来提供基础服务。

现在，百图生科，迈出了第一步。

（好了，感兴趣的朋友可以戳阅读原文注册领token了）

— 完 —

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247756932&idx=1&sn=a030acf5ddb64cdf946e9e996668042d

量子位

追踪人工智能新趋势，关注科技行业新突破

最新文章

百度打通两大国民产品！六边形AI创作新物种「自由画布」来了

小度为何押注AI眼镜？

今日最热论文：Scaling Law后继乏力，量化也不管用，AI大佬齐刷刷附议

稚晖君后宇树也来玩开源了：机器人操作数据集，采用抱抱脸LeRobot训练测试，网友：泰裤辣！

最后3天！2024人工智能年度评选，AI时代的行业先锋就等你来

摩尔线程冲刺IPO：国产GPU，英伟达中国一把手打造，估值已超255亿

OpenAI总裁回归！将更专注重大技术挑战，“结束人生最长假期”

小米上新二代大模型！窗口长度翻至50倍，平均性能提升超45%

Claude三巨头回应一切！Opus3.5仍可能发布，5小时超长视频10万人围观

最强开源CodeLLM模型深夜来袭！320亿参数，Qwen2.5-Coder新模型超越GPT-4o

马斯克招人策略曝光：9轮面试，底薪低于同行，只招“铁杆特斯拉人”

o1不是唯一路径！MIT新研究：在测试时训练，模型推理能力最高升至5.8倍

开源版SearchGPT来了，两张3090就可复现，超越Perplexity付费版

最后4天！2024人工智能年度评选，AI时代的行业先锋就等你来

诺奖AI成果开源了！AlphaFold3代码人人可以免费下，Nature亲自撰文推荐

0元起步打造你的AI搜索！实测秘塔知识库新功能，竟能指导我升职加薪了

浙大开源“最懂Excel的GPT”！首次将结构化数据作为独立模态训练，刷榜提升40百分点

o1/Claude集体翻车！陶哲轩等60+顶尖数学家合力提出新数学基准，大模型正确率通通不足2%

树莓派爆改国际象棋，棋子活了自己动

用LLM一键生成百万级领域知识图谱！中科大新框架入选ACL 2024

最后5天！2024人工智能年度评选，AI时代的行业先锋就等你来

GPT-5被曝不及预期，OpenAI员工：没什么科学突破了，接下来只需要工程

AI毒液刷屏抖音小红书！闲鱼10元代生成一次，但官网其实免费

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

多模态模型免微调接入互联网，即插即用新框架，效果超闭源商用方案

最后一周！2024人工智能年度评选，AI时代的行业先锋就等你来

OpenAI华人VP翁荔离职：北大校友，掌管安全，最近B站分享被热议

全球首个法律o1大模型发布，System2范式下慢思考法律专家｜港科大&北大

清华厦大等提出“无限长上下文”技术，100万大海捞针全绿，Llama\Qwen\MiniCPM都能上分

国产AI可以拍微电影了！4K、60帧高清画质，自带音效

蚂蚁集团前端技术团队分享：AI 浪潮下，前端开发将迎来怎样的机遇与变革？

AI蛋白质诺奖后再登Nature，第一性原理级精度，微软亚研院4年之作

一个弹窗整懵Claude，瞬间玩不转电脑了 | 斯坦福&港大新研究

评估大模型不看输出看「内在」，上交大新测试指标入选NeurIPS 2024

最后两周！2024人工智能年度评选，AI时代的行业先锋就等你来

黄仁勋：AI算力集群会扩展到100万芯片，没有任何物理定律可以阻止

鸿蒙的“AI野望”：让AI融入操作系统，数亿补贴寻应用开发者

首批嘉宾定了，李开复周志华都要来！MEET2025智能未来大会报名通道已开启

我在淘天做算法：十年拍立淘，一部视觉算法技术演变史

免训练加速DiT！Meta提出自适应缓存新方法，视频生成快2.6倍

50s完成7B模型量化，4bit达到新SOTA，大模型低比特量化有新招了 | NeurIPS 2024 Oral

李开复和周志华都来了，MEET2025智能未来大会报名正式启动！

登顶的小熊猫模型出AI产品了！3步10秒出一张海报，可免费商用

大模型重构生命科学！最大基础模型面世，解锁DNA超长序列，参数规模达2100亿

最高精度1公里*1公里*1小时！达摩院发布气象大模型，大山东已经在用了

GPT-4o加钱能变快！新功能7秒完成原先23秒的任务

零一万物战略骤转！国内聚焦toB，toC先走海外

轻松搭建AI版“谁是卧底”游戏，muAgent框架让知识图谱秒变编排引擎，支持复杂推理+在线协同

最后两周！2024人工智能年度评选，AI时代的行业先锋就等你来

腾讯算出MoE模型Scaling Law：C≈9.59ND+2.3×10⁸D，最佳激活参数量58.1B

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

大模型重构生命科学！最大基础模型面世，解锁DNA超长序列，参数规模达2100亿

赛小生 发自 凹非寺量子位 | 公众号 QbitAI

大模型时代下的生命语言解码

Foundation Model+Science正在到来

赛小生发自凹非寺
量子位 | 公众号 QbitAI