Nature Methods丨利用几何深度学习预测蛋白质-DNA结合特异性

学术 2024-08-17 18:01 浙江

大家好，今天分享的文献是2024年8月发表在Nature Methods 上的“Geometric deep learning of protein–DNA binding specificity”。

作者介绍：

本文通讯作者是南加州大学计算生物学教授Remo Rohs，Remo Rohs教授的主要研究方向包括计算结构生物学、高通量DNA shape预测和统计机器学习。

研究背景：

转录因子在生命过程中发挥着关键的调节作用，因此，理解蛋白质如何精确靶向特定DNA序列的机制显得尤为重要。蛋白质-DNA复合物的结构信息通常通过X射线晶体学、核磁共振和冷冻电子显微镜等技术获得，并存储于蛋白质数据库（PDB）中。这些结构揭示了蛋白质与特定DNA序列结合的方式及其物理化学相互作用。然而，这些数据并未涵盖所有可能结合的DNA序列。为填补这一空白，研究者们采用了蛋白质结合微阵列、配体系统进化结合高通量测序（SELEX-seq）、染色质免疫沉淀结合测序和高通量SELEX等方法，这些技术虽然捕获了更广泛的结合序列信息，但往往缺乏相应的结构数据。换言之，这些实验数据在很大程度上是互补的，通常需要手动校对，以将结构数据中的分子相互作用细节与结合特异性关联起来。尽管在特定蛋白质家族中取得了一定进展，跨蛋白质家族的结合特异性预测仍是一项具有挑战性的未解难题。结合过程中的结构变化及机制多样性进一步加剧了这一难度。通过人工智能手段挖掘蛋白质-DNA结构中蕴含的信息，或可为实现跨蛋白家族的通用预测提供关键支持。在此背景下，作者提出了DeepPBS。该深度学习模型旨在捕捉蛋白质-DNA 相互作用的物理化学和几何背景，以预测结合特异性，并通过基于给定蛋白质-DNA 结构的位置权重矩阵 (PWM) 来表示（如图 1 所示）。

这种方法为理解和预测跨蛋白质家族的结合特异性提供了新的可能性。

图1. DeepPBS总体框架图

模型设计：

框架如图1所示。DeepPBS的输入为蛋白质-DNA复合物结构，该结构可来自实验数据、分子模拟快照或预测模型。DeepPBS将该复合物视作一个二分图，其中蛋白质和DNA各自拥有独立的空间表示。蛋白质部分以重原子为顶点构成原子图，并计算多个特征；DNA部分则表示为去除序列身份但保留双螺旋形状的对称螺。系统首先对蛋白质图进行空间图卷积，以聚合原子邻域信息。随后，DeepPBS应用一组从蛋白质图到对称螺旋的二分几何卷积，学习螺旋点的几何方向与相邻蛋白质残基的方向和化学性质之间的关系。特定的化学相互作用，如氢键，依赖于位置和方向。DeepPBS使用四种不同的二分卷积处理对称螺旋点，分别对应大沟、小沟、磷酸和糖部分。大沟和小沟的卷积称为“沟槽读出”，而磷酸和糖部分的卷积结合DNA形状信息，为“形状读出”。这两种读出机制协同确定不同蛋白质家族的结合特异性。最终，结合引入的DNA形状信息以及一维卷积神经网络和预测层，DeepPBS实现了对结合特异性的预测。

结果与讨论：

（1）在实验确定的结构下DeepPBS的性能

框架用于评估DeepPBS模型在基准集上的性能。该架构支持两种训练机制：不涉及骨架卷积和形状信息的“沟槽读出”，以及不涉及沟槽卷积的“形状读出”。基准测试结果显示，结合“沟槽读出”和“形状读出”的DeepPBS模型表现优于单独的版本。在以实验数据训练时，加入DNA序列信息（“DeepPBS with DNA SeqInfo”）显著提升了模型性能，接近数据集的固有上限（图2.a）。然而，从解释性和设计角度来看，DeepPBS在DNA序列不具代表性时表现更优，这一点通过比较“DeepPBS”和“DeepPBS with DNA SeqInfo”在PWM-共晶结构DNA对齐得分中的表现得以证实（图2.b）。此外，DeepPBS展示了良好的跨蛋白质家族泛化能力，即使在结构较少的蛋白质家族（如热休克因子）中同样出色。特定家族的表现差异反映了已知结合机制，例如，zf-C2H2家族的“沟槽读出”模型表现更佳，而干扰素调节因子（IRF）家族则在“形状读出”模型上表现突出。对于某些家族，如同源异型域（HD）和叉头结构蛋白，DeepPBS模型的表现超越了单独的读出版本，表明网络有效捕捉了组件之间的复杂高阶关系（图2.c-d）。

图2. DeepPBS在预测实验确定的结构的蛋白质家族之间的结合特异性方面的性能

（2）在计算机预测的结构下DeepPBS的性能

该框架不仅适用于实验结构，还能与先进的结构预测方法结合，如RFNA和MELD-DNA，这些人工智能驱动的模型为缺乏实验性DNA结合结构数据的蛋白质提供了前所未有的预测潜力。作者提出了一种结合预测结构的DeepPBS应用方法：首先，基于蛋白质家族对初步猜测的DNA序列（IG DNA）进行预测，接着使用RFNA预测蛋白质-DNA复合体结构，最后通过DeepPBS预测结合特异性。这一方法已在三种基本螺旋-环-螺旋(bHLH)蛋白上得到验证，包括Max同源二聚体、TCF21二聚体和OJ1581_H09.2，均未在PDB数据库中找到相应的实验性结构（图3 a-d）。此外，作者探索了将DeepPBS预测结果作为反馈循环以增强蛋白质复合体建模的效果。以人类TGIF2LY蛋白为例，经过七轮反馈循环优化，RFNA和DeepPBS的预测结果显示出置信度指标（pLDDT）的提高，结构稳定性增强，以及绑定能量向低值的转移，证明了DeepPBS的有效性（图3 e-g）。与仅基于蛋白质序列的方法如rCLAMPS相比，DeepPBS在不同数据集上展现了更广泛的适用性。尽管rCLAMPS在某些数据上表现良好，DeepPBS在pLDDT分数较高的情况下更具优势（图3 h-i）。此外，DeepPBS不仅限于DNA核心结合区域，还广泛适用于不同蛋白质家族，展现了其在预测结合特异性方面的巨大潜力。

图3. DeepPBS 在预测的蛋白质-DNA 复合物结构中的应用

（3）DeepBPS在针对于特定DNA设计蛋白质骨架

在设计完全合成的螺旋-转角-螺旋（HTH）蛋白质骨架以针对特定DNA序列方面，作者取得了显著进展。作者将DeepPBS框架用于合成设计的蛋白质，这些蛋白质针对特定的DNA序列（GCAGATCTGCACATC），命名为DBP5、DBP6、DBP9和DBP35。DeepPBS预测的PWM（位置权重矩阵）和界面重原子水平的RI分数（图4b、f、j、n；图5c、g、k、o）与通过流式细胞术分析的单碱基突变结合信号进行定性比较一致（图5d、h、l、p）。尽管存在一些例外，DeepPBS在大多数情况下仍然准确预测了高特异性的结合位点。例如，针对DBP35的位点11，DeepPBS预测了除了WT碱基A外的C的结合可能性，类似情况也出现在DBP35的位点9和DBP5的位点7。在对未结合DNA区域的预测中，DBP9和DBP6的flanking区域均匀，与经典B-DNA结构一致，而DBP5和DBP35的flanking区域则显示非经典形状，并与蛋白质的环状区域存在狭窄的小沟相互作用。DeepPBS对A-tract的主要偏好预测与DNA形状一致，显示出小沟宽度显著下降。这些结果展示了DeepPBS在减少昂贵湿实验方面的潜力。

图4. DeepBPS在针对于特定DNA（GCAGATCTGCACATC）设计蛋白质骨架(螺旋-转角-螺旋)设计

总结：

计算机识别蛋白质与特定DNA序列结合具有挑战性。DeepPBS框架通过建模蛋白质-DNA复合体，有效地预测结合特异性，尤其适用于合成设计的蛋白质。其优势在于快速处理和高通量数据能力。目前，DeepPBS主要用于双链DNA，但未来有潜力扩展至单链DNA、RNA和其他聚合物。该工具为实验验证前的结合特异性提供了初步筛选支持。

∨

微信号：HanDa-Lab

课题组网站：https://www.hanlab.net/

撰稿：张志明

校对：何磊

编辑：侯佳宁

∨ 点击“阅读原文”直达文献

http://mp.weixin.qq.com/s?__biz=MzU5OTIzOTU2Nw==&mid=2247490334&idx=1&sn=f918de66062de3f3861f60d022425ef0

韩达课题组

最新文章

中国科学院杭州医学研究所韩达课题组博士后招聘公告

PNAS | Zfp106 与RNA G-四链体结合并抑制由 G4C2 重复序列引起的 RAN 翻译和 RNA foci

课题组工作丨ACS Nano丨多重原位成像位点特异性m6A甲基化

Angew | 以突变对抗突变：进化改造核酸适体用于识别 SARS-CoV-2 突变刺突蛋白

JACS | 酶催化驱动的DNA合成的游泳体

分子医学论坛预告丨第60期：吉训明院士带来报告《中国脑血管病特点与防治策略》

Nat Commun | 从头开始的端到端学习与深度几何势能用于RNA 结构的从头预测

Nat Nanotechnol | 原始DNA存储和计算引擎

JACS丨用于核内阻断 RNA 蛋白相互作用的功能性适配体体外进化

Mol Cell | 核内PKM2结合pre-mRNA上的G4显示其基因调控功能

分子医学论坛预告丨第59期：薛文教授带来报告《CRISPR-Based in vivo Genome Editing》

Science | 通过恢复海马体葡萄糖代谢，挽救阿尔茨海默病人的认知功能

JACS丨激光诱导的微尺度相变控制蛋白质凝聚体中的药物分配

Nat Commun丨通过 RNA 转录激活对哺乳动物细胞进行条件性 RNA 干扰

Angew. Chem. Int. Ed.| 使用活性液滴调节核酸催化

分子医学论坛预告丨第58期：肖瑞平教授带来报告《转化医学之旅》

Nature Nanotechnology | 模块化DNA折纸纳米室，用于工程化无细胞、蛋白质展开和降解途径

Nat Biotechnol | 循环延伸扩增以提高质谱流式的检测灵敏度

Angew | 在酿酒酵母菌中构建人工无膜细胞器以提高化学品生产

Nat Nanotechnol丨自主展示细胞毒性配体模式的DNA折纸开关

分子医学论坛预告丨第57期：Taeghwan Hyeon教授带来报告

J Nanobiotechnology | 转铁蛋白受体核酸适体修饰框架核酸用于靶向递送CEBPA-saRNA治疗胰管腺癌

【喜报】课题组成员获国家自然科学基金面上及青年基金项目资助

专题分享丨RNA-seq建库方案

Nature Methods丨利用几何深度学习预测蛋白质-DNA结合特异性

JACS | 相分离调控RNA杂交的热力学和动力学性质

分子医学论坛预告丨第56期：郭德良教授带来《肿瘤脂代谢的新调控及其在癌症中的治疗潜力》

NUCLEIC ACIDS RES丨C2′-氟代核酸在生理盐条件下形成左手螺旋

Nat Mater丨DNA折纸装置在空间上控制CD95信号传导以诱导类风湿性关节炎的免疫耐受

Nature Methods | CRISPR阵列介导的非重复位点和多路基因位点的活细胞成像

Cell Reports Medicine丨单细胞乳腺肿瘤图谱揭示肿瘤上皮细胞与免疫细胞的错综复杂关系并预测抗PD-1疗效

分子医学论坛预告丨第55期：樊春海院士带来《转化医学：从理念到实践》

Nat Commun丨不依赖末端修饰的cf RNA 测序可实现灵敏的早期癌症检测和分类

SCIENCE丨解混是通过相分离形成的生物凝聚物的默认过程

Advanced Science丨YY2/BUB3 轴通过调节染色体不稳定性促进 SAC 过度活化并抑制结直肠癌进展

JACS | 离子对生物分子凝聚体微环境的影响

分子医学论坛预告丨第五十四期：Howard C.Hang 教授

NATURE丨使用 AlphaFold 3 准确预测生物分子相互作用的结构

课题组工作丨ANGEW丨一种精准可控的DNA编码扩增反应用于活细胞膜蛋白多重定量成像

课题组工作丨PNAS丨解密sgc8c DNA适体的复杂三维结构和功能优化

JACS丨开发一种伪细胞系统以量化决定细胞中G-四链体功能的特定相互作用

JACS | 生物正交用于细胞间相互作用的促进和检测

Nat Method丨校正UMI中的PCR扩增错误以生成测序分子的准确数量

分子医学论坛预告丨第五十三期：陈小元教授带来《肿瘤诊疗一体化》

Nat Biomed Eng | 融合唾液酸酶到双特异性T细胞衔接器用于肿瘤细胞的去唾液酸化与溶解

毕业季丨飞向广阔的未来，祝课题组2024届毕业生毕业快乐，前途似锦！

Sci Adv丨基于DNA分子控制器的可自主装配与拆卸的分子机器人

课题组工作丨Nat Commun丨可执行数学运算的核酸分子计算芯片用于癌症诊断

Sci Adv丨能够捕获和释放荧光适体的RNA机器人

Nano Today丨装载有STING拮抗剂的肾小管上皮细胞仿生纳米颗粒通过调节固有与适应性免疫从而缓解急性肾损伤

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉