浙江大学陈华钧等团队合作最新Nature子刊

学术 2024-07-31 17:06 河南

iNature

逆转录合成是药物发现和有机合成中的一项关键任务，人工智能(AI)越来越多地用于加快这一过程。然而，现有的方法采用逐个标记的解码方法将目标分子串翻译成相应的前体，表现出不理想的性能和有限的多样性。由于化学反应通常会引起局部分子的变化，因此反应物和生成物往往会有明显的重叠。

2024年7月30日，浙江大学陈华钧、张强、侯廷军共同通讯在Nature Communications 在线发表题为“Retrosynthesis prediction with an iterative string editing model”的研究论文，该研究设计了一个具有重新定位采样和序列增强的推理模块，以提高预测精度和多样性。

研究提出将单步逆转录预测重构为分子串编辑任务，迭代地精炼目标分子串以生成前体化合物。提出的方法涉及一个基于片段的生成编辑模型，该模型使用显式序列编辑操作。此外，研究设计了一个具有重新定位采样和序列增强的推理模块，以提高预测精度和多样性。大量的实验表明，所提出模型产生了高质量和多样化的结果，取得了优越的性能，在标准基准数据集USPTO-50 K上的top-1精度达到60.8%。

设计分子的合成反应途径是有机合成的一个基本方面，对生物医学、制药和材料工业等各个领域具有重要意义。反合成分析是开发合成路线最广泛使用的方法。它包括使用既定反应将分子迭代地分解成更简单、更容易合成的前体。CASP利用计算方法预测反合成途径，帮助化学家有效地确定目标分子的最佳合成途径。它已成为解决有机合成规划挑战的重要工具。近年来，人工智能(AI)驱动的反合成促进了对更复杂分子的探索，并显著减少了设计合成实验所需的时间和精力。单步反合成预测是反合成规划的重要组成部分，目前已经提出了几种基于深度学习的方法，并取得了良好的效果。这些方法可以大致分为三组:基于模板的、无模板的和半基于模板的方法。

基于模板的方法将逆转录预测作为一个模板检索问题，并将目标分子与预先计算的模板进行比较。这些模板捕捉了特定类型化学反应中反应中心的基本特征。它们可以手动或自动生成，并作为模型的指南，以确定给定分子的最合适的化学转化。尽管提供了可解释性和分子有效性，但基于模板的模型存在有限的泛化和可扩展性问题，这可能会阻碍它们的实际应用。无模板方法利用深度生成模型来生成反应物分子，而不依赖于预定义的模板。

大多数现有的方法将任务重新表述为序列到序列的问题，采用分子的序列表示，特别是简化的分子输入行输入系统(SMILES)。此外，不正确的子结构可能导致错误的预测。虽然无模板方法完全是数据驱动的，但它们引起了对可解释性、化学有效性和生成分子多样性的关注。基于半模板的方法利用了上述两种方法的优点。这些方法遵循两个阶段的程序：首先，通过识别反应位点将目标分子分割成合成子，然后使用离开基团选择、图生成或SMILES生成等技术将合成子转化为反应物。然而，该框架的两个学习阶段是独立的，导致计算复杂性增加。此外，将从预测反应位点获得的知识和见解传播到反应物完井中也构成了重大挑战。

提出的EditRetro方法用于分子链反合成（图源自Nature Communications ）

研究的重点是无模板逆转录预测。现有的方法通常使用基于字符串的分子表示，因为它们易于操作并且与已建立的语言模型兼容，从而产生更高的生成效率。先前的研究表明，基于变压器的逆合成预测具有可接受的通用性和鲁棒性。然而，这些方法通过逐个标记的自回归解码策略从头生成反应物，其性能不理想且多样性有限。在实践中，化学反应经常引起局部分子变化，导致反应物和产物之间有明显的重叠。认识到这一事实，建议将问题重新定义为分子字符串编辑任务，并引入基于编辑的逆转录合成模型EditRetro，该模型可以实现高质量和多样化的预测。

研究的核心概念是通过使用Levenshtein操作的迭代编辑过程来生成反应物字符串。研究方法从基于编辑的序列生成模型的最新进展中获得灵感。具体来说，采用了EDITOR的操作，这是一个为神经网络机器翻译而设计的基于编辑的Transformer。模型架构包括一个编码器、一个重新定位解码器、一个占位符解码器和一个令牌解码器，如图b所示。解码过程包括采用重新定位、占位符插入和令牌插入操作，以确保生成反应物的准确性。重新定位策略预测输入标记的索引，包括重新排序和删除函数。随后，占位符策略预测所需的占位符数量，然后是令牌插入策略，以确定要插入的实际令牌。为了进一步提高预测的多样性，研究设计了一个重新定位采样和序列增强的推理模块，如图a所示。序列扩增随机选择分子图枚举的起始原子和方向来创建规范分子SMILES的变体，允许从产品字符串到反应物的多种编辑途径。重新定位采样对重新定位分类器的输出进行采样，为识别更广泛的反应类型提供了机会，如图c所示。

参考消息：

https://www.nature.com/articles/s41467-024-50617-1#Abs1

—END—

内容为【iNature】公众号原创，

转载请写明来源于【iNature】

微信加群

iNature汇集了4万名生命科学的研究人员及医生。我们组建了80个综合群（16个PI群及64个博士群），同时更具专业专门组建了相关专业群（植物，免疫，细胞，微生物，基因编辑，神经，化学，物理，心血管，肿瘤等群）。温馨提示：进群请备注一下（格式如学校+专业+姓名，如果是PI/教授，请注明是PI/教授，否则就直接默认为在读博士，谢谢）。可以先加小编微信号（love_iNature），或者是长按二维码，添加小编，之后再进相关的群，非诚勿扰。

投稿、合作、转载授权事宜

请联系微信ID：13701829856 或邮箱：iNature2020@163.com

觉得本文好看，请点这里！

http://mp.weixin.qq.com/s?__biz=MzU3MTE3MjUyOA==&mid=2247632013&idx=1&sn=812fc4631d4982b23aba45502107add9

iNature

专注前沿科学动态，传递科普信息。

最新文章

复旦团队牵头，这项中药研究登上柳叶刀!

Cell子刊丨浙江大学傅旭东团队溶酶体分解代谢活性通过沉默早期胚胎逆转录转座子促进小鼠全能性2细胞状态的退出！

招聘丨西湖大学吕久安实验室助理研究员、博士后、博士研究生、科研助理招聘启事（长期有效）

Biomaterials丨上海交通大学等团队研究制备近红外光触发聚吡咯杂化水凝胶通过杀菌和光热免疫促进糖尿病皮肤伤口愈合

Adv Sci丨哈尔滨医科大学赵艳滨/高越团队研究阐明整合素β8通过调节CCL5促进LUAD进展，促进巨噬细胞浸润和极化

Adv Sci丨东南大学柴人杰等团队合作研究发表AAV介导的遗传性耳聋基因治疗：进展与展望的综述

Adv Sci丨浙江大学范衡宇等团队研究揭示PCBP1/2和TDP43在哺乳动物细胞中作为NAT10接头介导mRNAac4C形成

Nature子刊 | 孙永华团队揭示DHA-PA-PG轴调控母源脂质利用和消化器官扩张的机制

Cell子刊丨重庆医科大学董志芳/任春光表明脑膜中性粒细胞免疫信号影响威胁后的行为适应！

Cell子刊丨陕西师范大学杨兴斌/李婷最新研究表明不可消化水苏糖结合小肠上皮膜HSP90b调控外泌体miRNA！

Nature | 扎心！胖子运动只能变成一个健壮的胖子的原因找到了：肥胖记忆竟然写进了细胞里

课程预告｜大咖有约：胰岛β细胞——2型糖尿病发生的“决策者”

Science子刊 | 山东大学马春红/武专昌研究发现TIM-3的棕榈酰化促进免疫衰竭并抑制抗肿瘤免疫！

JECCR丨中南大学闾宏伟等团队研究表明S1PR1通过p-STAT1/miR-30c-5 p/FOXA1通路抑制肺腺癌进展

招聘丨中山大学向芙莉课题组招聘启事

JECCR丨南京大学吕镗烽等团队研究表明MDM2通过破坏FBW7介导的MCL-1蛋白破坏来驱动对奥西替尼的耐药性

NSR | 中国科学院蔡新霞等开发了一种基于聚苯乙烯的蛇形电极探针，用于稳定、长期的神经监测！

JECCR丨中山大学康铁邦等团队研究揭示了KLF16/MYC反馈回路是膀胱癌的治疗靶点

Adv Sci丨四川大学樊渝江/周长春团队研究3D打印原位生长颗粒增强生物陶瓷支架用于超临界骨缺损重建

Nature 子刊丨解析抗肿瘤T细胞RNA-DNA表观互作新机制，侯嘉杰研究被推荐为肿瘤免疫领域Featured Article

广州医科大学附属市八医院潘啟安教授在JAMA发表研究成果

Science子刊 | 山东大学马春红/武专昌研究发现TIM-3的棕榈酰化促进免疫衰竭并抑制抗肿瘤免疫！

Nature子刊 | 杭州师范大学丛羽生/毛剑揭示了ATF3重新激活SA-ERVs的未知机制！

Nature子刊 | 解决有机放射治疗材料痛点！多高校合作报告了一种级联X射线能量转换方法，用于开发癌症治疗的有机放射余辉探针！

Nature子刊 | 复旦大学余洪猛团队通过单细胞转录组景观解析了嗅觉神经母细胞瘤亚型和肿瘤内异质性！

Science | 重磅发现！小时候吃的糖，也会影响终生！这个年龄前吃糖过多，更容易得糖尿病、高血压

不要错过明天上午的网络直播 | Cell作者面对面：如何测量细胞膜机械力传导

科技部：建立科研诚信“一票否决制”

GUT | 骆卉妍、徐瑞华、李元方、刘泽先等揭示胃癌腹膜转移免疫治疗耐药机制

招聘丨Guido Kroemer教授招聘联合培养博士研究生

招聘丨浙江大学陆新江课题组博士后招聘启事

招聘丨上海市病毒研究院史卫峰课题组科研助理招聘启事

招聘丨天津医科大学基础医学院张恒课题组教师招聘启事

招聘丨北京大学杭婧课题组招聘启事

科技部：建立科研诚信“一票否决制”

天津大学罗云孜团队合作最新Nature子刊

Nat Commun | 浙江大学陈忠/汪仪研究表明组胺调节的亚回路在小鼠警觉驱动加速运动中起关键作用

PNAS丨中国科学院大学徐迅等团队合作研究基于层压的类器官空间分辨转录组学技术用于原发性肺和肝类器官表征

Mol Cancer | 中南大学湘雅医院的研究团队发表FGFR靶向治疗的最新进展的综述

Adv Sci丨中国科学院张军/田卫国制备基于纤维素的透明食用抗菌阻氧涂层，用于水果的长期保鲜

山东农业大学卢从明团队合作最新Nature子刊

AM丨复旦大学董健等团队合作研究制备癌细胞膜仿生纳米系统实现脊柱转移瘤气体免疫代谢治疗

PNAS丨上海交通大学瞿旭东等研究揭示核碱基驱动的P450过氧化物酶系统能够形成区域特异性和立体特异性的C─C和C─N键

ACS Nano丨华南理工大学于鹏等团队合作研究制备植入物表面半导体异质结涂层调控能量代谢以驱动骨再生中血管生成

Adv Sci丨上海交通大学孙涛等研究评估单循环M蛋白突变VSV作为SARS-CoV-2免疫原传递的安全和免疫原性粘膜疫苗平台

PNAS丨香港浸会大学赵中应团队研究在物种杂交中，一个新生的F-box基因通过选择性地降解磷酸葡萄糖糖化酶来阻断基因流动

Nat Commun | 中国台湾长庚大学曾庆平团队揭示hDab2在调节与血小板减少相关的出血中的作用

Nat Commun | 首都医科大学吴若嘉等团队合作揭示急性髓性白血病的新型监测治疗策略

Nat Commun | 华南理工大学娄文勇/曹宇飞研究发现异戊烯醇抑制能量代谢在酿酒酵母IU途径中的调控

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉