Science | 基因组基石模型预测与生成多组分系统

学术 2024-11-15 23:59 北京

就像大语言模型一样，优秀的基因组基石模型可以捕捉演化过程塑造的多样的基因组的序列模式特征，并生成满足用户功能需求的序列[1]。

近日，就有一项发表在Science的工作介绍了这种基因组基石模型[1]。

此项来自斯坦福大学Brian L. Hie以及UC Berkeley Patrick D. Hsu等研究人员的工作通过数据库中上百万的原核生物与噬菌体包含上千亿碱基的基因组（没有详细的注释）来训练一个基于 StripedHyena架构（一种deep signal processing architecture；70亿参数）的模型[2], [3]。发现该模型能够从分子（蛋白、ncRNA以及调控序列）到基因组水平预测其适应性（也就是突变对其的功能影响）；并生成编码CRISPR-Cas9、转座子系统等核糖核蛋白复合物的序列（需要进一步的fine-tuning；这也是首个协同生成编码蛋白与RNA序列的语言模型），甚至生成整个看起来架构合理的基因组（1 Mb左右；只是从编码蛋白元件密度等方面比较合理，但是整体上还是有缺陷，缺少关键组分）[1]。

基因组基石模型从分子到系统再到基因组水平的预测和生成[1]。

该项工作2024年11月15日发表在Science；研究人员认为此类模型可以帮助人们进一步的基因组工程[1]。

Comment(s):

期待推进到真核基因组。

参考文献：

[1] E. Nguyen et al., “Sequence modeling and design from molecular to genome scale with Evo,” Science (80-. )., vol. 386, no. 6723, p. eado9336, Nov. 2024, doi: 10.1126/science.ado9336.

[2] “GitHub - togethercomputer/stripedhyena: Repository for StripedHyena, a state-of-the-art beyond Transformer architecture.” https://github.com/togethercomputer/stripedhyena (accessed Nov. 15, 2024).

[3] M. Poli et al., “Hyena Hierarchy: Towards Larger Convolutional Language Models,” in International Conference on Machine Learning, 2023. [Online]. Available: https://api.semanticscholar.org/CorpusID:257050308

原文链接：

https://www.science.org/doi/10.1126/science.ado9336

商务合作：mss@pku.edu.cn （要求：1. 过审核；2. 标题明确标注）

CNS导读

关注有广泛深远影响的顶刊工作 Rigorous \x26amp; Elegant Science for Everyone

最新文章

Science | 新工作通过强化线粒体DNA表达提升了小鼠认知能力

背靠背Nature | 新方法更灵活地设计蛋白复合物

Nature | 2025科学展望

Nature + Science | 古今基因组解析现代人演化的关键环节

2024 Science “年度重挫”

2024 Science “准年度突破”

2024 Science年度突破

背靠背Nature | 皮肤与菌群共存新机制

Nature | 基于扩散模型带概率分布地预测天气

2024 Nature年度人物

Science | 单个氨基酸突变带来受体特异性的转换

2 x Science | “智能” 的T细胞有望更特异治疗肿瘤与自身免疫病

Science | “二阶RFdiffusion” 设计关键受体的阻断与激活蛋白

Nature | 模块化设计GPCR “编程” 感应与下游通路

Science | 当mRNA “邂逅” 核糖体

Nature | “无序” 的互作， “无视” 的手性

Science | 虚假消息挑起愤怒加速传播

Science | 超两千万单细胞全景解析小鼠衰老变化

Nature | 新研究解析恐龙如何称霸陆地

Science | 虚实结合的定向进化上百倍提高蛋白性能

Nature合辑 | 人类细胞图谱倡议迈向首个草图

Science | tRNA介导的mRNA降解

Science | 新方法实现全脑单细胞水平转录状态分析

Nature | 新工具跨平台搜索类似的单细胞

Nature | 新研究回答为啥减肥那么难

Nature | 功能蛋白质组解析胰腺癌微环境的细胞互作

Nature | 拉曼加持AI的系统10s准确识别胶质瘤浸润

Science | 基因组基石模型预测与生成多组分系统

The Lancet | 大规模多中心随机对照临床试验分析中药对脑出血的治疗效果

Nature | 像人一样通用自主探索实验的机器人

AlphaFold3终开源

Nature | 整合了临床自由文本信息的多模态模型更好地预测病人预后

Cell综述 | AI将如何助力生物医学发现

Nature | 基于AI的高效精准通用分子动力学模拟

Science | 加速百万倍的实验室演化带来蛋白结构与功能新见解

Nature合辑 | 时空解析肿瘤演化

Nature | 新方法时序记录胚胎发育与肿瘤起源

Nature | 中枢神经系统的免疫豁免或带来自身免疫疾病治疗的新方案

Science | 早期的固有免疫细胞活化带来社会行为变化

Science | 蛋白结构域百科全书

Science | 6w+人的 “准实验” 显示生命早期的控糖帮助抵抗慢性病

Cell | “过犹不及” ？内源逆转录病毒元件的活化导致毛囊耗竭

Cell | 整合的深度成像分析发现肿瘤驱动新机制

Science | 新研究发现逆转座子参与的关键生理功能

Science | “放松” 的序列空间带来蛋白设计的延展

Science | 新研究解析水熊耐辐射 “超能力”

Nature | 新方法给AI产出 “打水印”

Cell | 重复序列RNA “沟通” 胰腺癌细胞及其微环境

Science | 新工作功能解析感应人胃肠代谢的受体

Nature | 自调节 “智慧” 胰岛素

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉