登Nature，AI设计DNA开关，MIT团队实现精确的细胞控制

学术 2024-10-31 11:50 北京

将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

编辑 | 萝卜皮

近年来，基因编辑技术以及各种基因治疗方法使科学家能够改变活细胞内的基因。然而，只影响特定细胞类型或组织中的基因，而不是影响整个生物体的基因，一直很困难。部分原因是人们对控制基因表达和抑制的 DNA 开关 [即顺式调控元件 (CRE）] 的理解仍面临挑战。

杰克逊实验室（JAX，The Jackson Laboratory）、麻省理工学院（MIT）和哈佛大学布罗德研究所以及耶鲁大学的研究人员利用人工智能设计了数千个新的 DNA 开关，可以精确控制基因在不同细胞类型中的表达。他们的新方法开启了控制基因在体内何时何地表达的可能性，以前所未有的方式造福人类健康和医学研究。

「这些合成设计的元素的特别之处在于，它们对其设计的目标细胞类型表现出了显著的特异性。」杰克逊实验室副教授兼论文共同通讯作者 Ryan Tewhey 博士说，「这为我们创造了机会，让我们可以在不影响身体其他部位的情况下，仅在一种组织中提高或降低基因的表达。」

该研究以「Machine-guided design of cell-type-targeting cis-regulatory elements」为题，于 2024 年 10 月 23 日发布在《Nature》。

论文链接：https://www.nature.com/articles/s41586-024-08070-z

顺式调控元件 (CRE) 控制基因表达，协调组织身份、发育时间和刺激反应，这些共同决定了体内数千种独特的细胞类型。虽然在需要组织特异性的治疗或生物技术应用中战略性地整合 CRE 具有巨大潜力，但不能保证自然产生出适合这些预期目的的最佳 CRE。

科学家们知道，人类基因组中有数千种不同的 CRE，每种都发挥着略有不同的作用。但 CRE 的语法一直很难弄清楚，「没有简单的规则来控制每个 CRE 的作用。」JAX Tewhey 实验室的计算科学家，论文的第一作者之一 Rodrigo Castro 博士解释说，「这限制了我们设计仅影响人体某些细胞类型的基因疗法的能力。」

「如果我们从语言的角度来思考，这些元素的语法和句法就很难理解。因此，我们尝试构建机器学习方法，以便学习比我们自己能学习的更复杂的代码。」

人工智能来设计 CRE

Castro 所在的联合研究团队创建了 Malinois，这是一个深度卷积神经网络 (CNN)，用于预测任何序列的细胞类型相关信息 CRE 活性（通过 MPRA 测量）。

图示：Malinois 能够准确预测染色体外报告基因中 CRE 的转录激活。（来源：论文）

在此基础上，研究团队提出了一种从头设计新型合成 CRE 的方法 CODA，该 CRE 能够在三种转化细胞系中驱动细胞类型特异性转基因表达。

「该项目本质上提出了一个问题：『我们能否学会读取和编写这些调控元件的代码？』」耶鲁大学遗传学助理教授、该研究的通讯作者之一 Steven Reilly 博士说。

图示：CODA 有效地设计了特定于细胞类型的 CRE。（来源：论文）

研究人员通过整合之前在跨细胞类型建模调控语法、高效序列空间搜索和可并行验证数千个 CRE 的 MPRA 实验系统方面的创新来实现这一目标。

研究人员使用了最近生成的统一处理的 MPRA 实验数据库，该数据库表征了前所未有的数量的 CRE，以训练精确的深度学习模型，该模型可以快速预测任何序列的活动。

「天然的 CRE 虽然数量众多，但只代表了可能的遗传元素的一小部分，而且它们的功能受到自然选择的限制。」该研究的共同第一作者、Sabeti 实验室的博士后研究员 Sager Gosai 博士说，「这些人工智能工具在设计基因开关方面具有巨大潜力，可以精确调整基因表达，以实现生物制造和治疗等超出进化压力范围的新应用。」

三种细胞系中测试

结合序列生成算法，研究人员部署他们的模型在三种细胞系中生成具有程序特异性的数千种合成 CRE，并使用 MPRA 在体外对其进行功能验证，并通过探测小鼠和斑马鱼的生理相关组织在体内对其进行功能验证。

在转化细胞系中检测的报告系统中，CODA 设计的合成序列在驱动细胞类型特异性基因表达方面确实优于天然序列。研究人员表明，CODA 可以识别出通常表现优于天然序列的合成序列，其效率远高于随机搜索，但无法确定全局最优值。

CODA 设计的合成 CRE 通过以独特的组合部署靶向激活和脱靶抑制 TF 来实现更高的特异性，而这种组合在人类基因组中并不常见。这说明该模型已经学习了控制 CRE 的基本规则的一部分，并且能够将这些知识推广到很少观察到的 TF 组合。

使用 Malinois（CRE 转录输出的直接模型），该团队能够识别具有中等细胞类型特异性活性的基因组序列，尽管程度低于合成序列。

图示：解释功能序列内容。（来源：论文）

需要注意的是，在该研究的转化细胞系中，在识别基因组中能够进行细胞类型特异性报告基因表达的序列方面，Malinois 比传统的 CRE 活性标记（如 DNase 和 H3K27ac）更熟练。这强调了在生成用于训练高性能模型的库时，需要仔细考虑通常研究的候选 CRE 之外的序列。

体内评估

该团队在体外建模、生成和测试特定于单个转化细胞系的序列方面的高成功率，促使他们决定将评估这种活性如何扩展到体内复杂组织。尽管存在组织类型不完全保守、异时性和谱系特异性调控语法的潜在挑战，但他们的 CRE 在斑马鱼和小鼠中表现出保守的组织水平跨物种活性。

图示：合成元素的体内验证。（来源：论文）

这些发现表明，体外开发的具有新功能的 CRE 可以在体内类似组织中保持特异性。研究人员通过单一转化的 SK-N-SH 细胞系设计的神经元 synN1 CRE 在小鼠中表现出高度特异性的皮层下表达。

「合成的 CRE 在语义上与天然元素相差甚远，因此对其有效性的预测似乎难以置信。」Gosai 说道，「我们最初预计许多序列会在活细胞内出现异常。」

但事实是「CODA 在设计这些元素方面表现得如此出色，这让我们感到非常惊喜。」Castro 说。

局限性与展望

接下来，需要进一步研究以制定最佳策略，将体外模型转化为体内精确靶向。将人类细胞系与全生物实验模型相结合的综合框架可能是快速识别能够在人类中实现新功能的 CRE 的有效方法。

转基因应用（例如需要组织、细胞类型或患病细胞状态特异性的基因疗法）可能会受益于具有可编程功能的合成 CRE 的设计和验证。在具有更高临床相关性的其他细胞类型中对 MPRA 模型进行训练可以使 CODA 更好地设计具有针对治疗应用量身定制的特异性的 CRE。

随着序列到功能模型的基础技术不断发展，研究人员认为合成元件设计将变得更加可靠，并减少体外和体内验证的实验负担。

该团队表示，该平台的设计可灵活适应任何目标函数。通过在未来将替代实验平台和模型与 CODA 相结合，研究者可以探索合成 CRE 的广阔前景，以实现进化可能未优化的目标，包括药物反应性（例如对糖皮质激素的反应性）、微调表达输出或响应癌细胞特有的复杂语法。

Tewhey 表示：「这项技术为编写具有预定义功能的新调控元件铺平了道路。此类工具不仅对基础研究很有价值，而且可能具有重要的生物医学意义，你可以使用这些元件来控制特定细胞类型中的基因表达，以达到治疗目的。」

相关内容：https://phys.org/news/2024-10-ai-dna-flip-genes-precise.html

人工智能 × [ 生物神经科学数学物理化学材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

欢迎关注标星，并点击右下角点赞和在看。

点击阅读原文，加入专业从业者社区，以获得更多交流合作机会及服务。

http://mp.weixin.qq.com/s?__biz=MzI3MjM3ODk0NQ==&mid=2247503552&idx=1&sn=70c78dbe415fb3ba417654cf6ccc0970

ScienceAI

机器之心旗下媒体，关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展。

登Nature，AI设计DNA开关，MIT团队实现精确的细胞控制

分类准确率达99%，山大团队提出基于对比学习的基因数据分类方法

准确、高效、物理有效，中科大、北大提出「两段式」分子对接统一框架DeltaDock

丹麦首台AI超级计算机，NVIDIA技术加持，服务于量子计算、清洁能源、生物技术等领域

TMI2024 | 阿大、同济等提出TraCoCo，用于3D医学图像半监督分割

科学实验室走向全自动化，机器人融合AI，加速科学发现，Science子刊观点

不懂AI、不会编码？如何轻松拿捏AlphaFold准确预测蛋白结构

Nature 子刊，化学语言模型自动设计多靶点配体

AI 驱动化学空间探索，大语言模型精准导航，直达目标分子

AI搞科研？西湖大学发布「AI科学家」Nova，效果比SOTA竞品提升2.5倍

成功率提升15%，浙大、碳硅智慧用LLM进行多属性分子优化，登Nature子刊

1.1亿个结构DFT计算，Meta推出OMat24，AI驱动材料发现开源化

Nature子刊，北大陈语谦团队提出多模态单细胞数据整合和插补的深度学习方法

速度提高1000万倍，AI快速准确预测等离子体加热，助力核聚变研究

从结构准确预测蛋白质功能，东北大学「CNN+GCN」统一框架，优于现有方法

仅8B参数，可与GPT-4媲美，上交大团队构建多语言医学大模型

准确预测蛋白质功能，中山大学基于几何图学习的酶工程新方法

几秒完成化学反应，每天筛选上万反应，浙大、之江全自动高通量AI「机器人」

中国科学院核聚变最新进展，AI 加速等离子体参数预测

Nature子刊，香港浸大、英伟达团队多模态深度语言模型，用于复杂的宏基因组研究

AI 驱动的「科学搜索引擎」如何加速你的课题进度

水和算法有何相似？用物理学来理解大语言模型

化学空间导航仪：流生成式AI引导分子属性控制

AI发现超16万种新RNA病毒？阿里云、中山大学合作研究登Cell

化学诺奖为何颁给「AI+生物」，凭什么Baker独占一半？

快多个数量级，清华更高精度、更泛化的深度学习电子结构计算方法登Nature子刊

Nature子刊，基于量子实验数据进行机器学习，用于解决量子多体问题

AI再夺诺奖！2024诺贝尔化学奖授予蛋白质计算领域三位科学家

诺奖颁给交叉学科，对「AI for Science」意味着什么？

从预测风暴到设计分子，微软的 AI 基础模型如何加速科学发现

精准预测流产风险，上海交大等开发可解释AI算法，为早期预防带来希望

中国科学院团队发布GeneCompass：解析基因调控密码，打造干湿融合新范式

如何用生成式 AI 定义我们的未来？看看微软怎么说

更简单、更清晰，解析核酸、蛋白、细胞等结构，AI实现快速分子模式挖掘

Science 发文，高通量蛋白质组学和人工智能的革命

中国科大、科大讯飞团队开发ChemEval：化学大模型多层次多维度能力评估的新基准

灵巧的机器人，DeepMind推出两个基于AI的机器手系统和未知场景「生成式AI」应对策略

同时生成蛋白序列和结构，David Baker团队序列空间扩散新模型登Nature子刊

新「AI科学家」？MIT整合多智能体，实现材料科学研究自动化

OpenAI o1 在医学领域的初步研究，我们离 AI 医生更近了吗？

机器学习辅助催化剂设计，天大团队开发通用且可解释的描述符

中国科学院物理学家利用机器学习揭示原子核壳演化

Nature子刊，川大团队机器学习结合MD，预测蛋白质变构，助力药物研发

23亿参数，Transformer架构，NASA、IBM发布「天气+气候」通用AI模型Prithvi WxC

上交大、复旦中山团队开发糖尿病专用大语言模型，助力个性化糖尿病管理

准确率87.6%，南农、国防科大、苏大等发布显微图像分类AI新方法

借助谷歌AI工具，科学家揭示「生物蛋白如何应对恶劣条件」

全球首个真实场景城市内涝监测大模型

首个多模态地理科学大模型「坤元」

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉