前沿进展：通过层次结构信息和分子动力学模拟发现高活性肽

学术 2024-10-31 22:01 北京

导语

设计一种新多肽药物，就像在化学和生物的迷宫中找到一条最有效的路径。多肽药物在治疗中具有广泛的应用潜力，但如何从众多可能的多肽序列中快速找到高效的活性肽？目前的方法如机器学习等，往往面临高昂的计算资源消耗、复杂的亲和力评估以及数据要求极高的局限。为了解决这些问题，基于算法信息论框架下的“梯径（Ladderpath）”方法，提出了一种创新的多肽设计策略——PepHiRe (Peptide Hierarchical Reconstructor）。这一方法可以将多肽序列的层级结构信息进行解析，通过快速高效的方式生成潜在的高活性肽药物。借助PepHiRe，我们能够更清晰地理解多肽药物的结构复杂性，加速从设计到实际应用的过程。

2024年10月28日，Journal of Chemical Information and Modeling发表论文《Discovery of Highly Bioactive Peptides through Hierarchical Structural Information and Molecular Dynamics Simulations》，介绍了PepHiRe方法及其针对癌症相关蛋白MCL-1，成功设计了全新的高活性多肽药物。「AI by Complexity」读书会发起人，北京师范大学文理学院系统科学系、复杂系统国际科学中心副研究员刘宇为论文通讯作者。以下是论文共同第一作者彭璐对文章的解读。

研究领域：药物设计，生物活性肽，算法信息论，梯径方法，分子动力学

彭璐 | 作者

论文题目：Discovery of Highly Bioactive Peptides through Hierarchical Structural Information and Molecular Dynamics Simulations
论文链接：https://doi.org/10.1021/acs.jcim.4c01006
作者：李舒#，彭璐#，陈柳青#，阙林婕，康文青清，胡晓俊，马军，狄增如，刘宇*

一、多肽药物的潜力与挑战

多肽药物是由2到50个氨基酸通过肽键连接而成的小分子。相比于传统的小分子药物，多肽药物具有更高的特异性和更低的毒性，这使得它们在治疗癌症、糖尿病以及心血管疾病等多种疾病方面展现出巨大的潜力。每一个多肽序列都有其独特的信息，就像在药物设计的“地图”上占据着特定的位置。这些位置代表着多肽的特性，例如它的靶向性、药效和稳定性。

然而，所有可能的多肽序列种类是几乎无穷的。仅考虑由20种天然氨基酸组成的多肽序列，可能的组合数量就远远超出想象。这意味着，探索所有潜在多肽药物的可能性就像试图浏览一张无比巨大的地图。我们很难完全覆盖整个多肽药物的设计空间，所以需要通过系统性的方法，帮助高效地探索局部区域，从中找出对疾病治疗具有实际意义的多肽分子。

在面对这个庞大的多肽药物设计空间时，通常面临着两个关键问题：

1. 如何从海量的可能组合中发现高效、特异性强的多肽药物？

2. 我们能否整合出更快速、更有效的方法，来筛选那些与特定靶点相结合的多肽药物？

为了解决这些问题，需要探索更加智能化的多肽设计方法。我们基于“算法信息论”中的“梯径（Ladderpath）”方法提出的PepHiRe方法，是一种通过层级结构解析，帮助研究者在复杂多肽序列空间中找到最优多肽药物的创新工具。

目前多肽药物设计的方法
在多肽药物设计中，有几种常见的计算方法，分子对接用于预测肽与靶蛋白的相互作用，类似于为钥匙寻找合适的锁，从而筛选出可能有效的肽药物。分子动力学模拟(MD)则帮助研究人员更深入地观察多肽在生物环境中的动态行为，比如与靶蛋白的结合过程和结构变化。虽然这些方法有效，但在使用时往往耗费大量的计算资源，且在处理复杂分子时效率不高。
近年来深度学习也进入了多肽药物设计领域。通过神经网络，研究者可以自动生成新肽分子，像是让机器学习如何“设计”药物。然而，深度学习方法常常需要大量高质量的数据来训练模型，而且由于其“黑箱”特性，研究人员很难理解模型的内部工作原理。

二、PepHiRe——通过
“梯径方法”寻找抗癌多肽药物

在自然界中，复杂事物的进化通常会依赖于已有的基础进行“修修补补”，而不是从零开始。复杂的器官、分子或功能大多是在已有结构上不断优化与调整^[1]。基于这一观察，我们提出了PepHiRe，结合“算法信息论”中的"梯径(Ladderpath)”方法，系统性地设计和优化多肽药物。PepHiRe就像是在已有的多肽序列中寻找关键的“拼图”，然后通过重组这些有用的片段，生成新的多肽药物，再通过一些虚拟筛选的工具帮助我们验证生成的多肽序列的有效性。

为什么是梯径（Ladderpath）？

梯径方法基于算法信息论的核心理念：任何复杂系统都可以通过找到其中重复的部分进行简化和优化。就像自然进化不是从头开始，而是通过重复和调整已有的片段来构建新的结构，多肽序列也是由一些关键片段反复组合而成的^[2]。通过梯径方法，可以识别这些关键的片段及其层次关系。就像搭建积木一样，使得可以不从零开始构造多肽，而是基于已知的有效片段进行组合和优化，生成更加优化的多肽药物。

通过梯径方法解构BH3肽

PepHiRe的架构

PepHiRe利用这一思想，从8种已知的BH3肽序列中提取出结构信息，辅助生成全新的多肽药物，进而靶向抑制与癌症密切相关的MCL-1蛋白。MCL-1蛋白通过阻止细胞凋亡，帮助癌细胞“逃脱”死亡，而我们设计的多肽药物则可以模仿BH3肽的功能，打破这种抑制，从而促进癌细胞死亡，减缓病痛。

PepHiRe的工作流程可以分为三个主要步骤：

① 生成新肽序列：利用梯径方法从8种已知的高效BH3肽序列中提取结构信息，生成一系列新的多肽候选序列。这些新生成的多肽序列都具有潜在的与MCL-1结合能力。

② 筛选多肽：通过预测这些多肽的螺旋结构潜力（即它们能否形成α螺旋），与目标蛋白分子对接结果来筛选出表现最佳的多肽。通过这一过程，我们能够选出与MCL-1结合最紧密的多肽。

③ 优化与迭代：筛选出的最优多肽会被加入到原始的多肽库中，形成一个扩展版的多肽库，供下一轮生成和筛选使用。这个过程会不断重复，以确保最终生成的多肽具备高度的生物活性和靶向效果。

PepHiRe 的架构，包括了①多肽生成、②多肽筛选和③放回迭代

基于梯径方法生成新肽

我们可以将梯径方法想象成一个“拼图”过程，它从已知的多肽序列中提取出有用的片段，称为“梯元(ladderon)”，并将它们重新组合成新的多肽序列。

首先，生成一个“梯图(laddergraph)”，展示哪些片段在原始序列中反复出现。每个片段的权重由其长度和出现频率决定，权重越大，越有可能被优先选中。然后，我们初始化一个空的多肽序列，使用"轮盘赌"的方式，根据这些片段的权重，逐一将它们放入合适的位置。

一个关键点是，如果选中一个较大的片段，会将其放置在仍有空位的位置，该片段会完全覆盖这些位置中的片段 (如下图中ABDCD覆盖了DCD)；但如果指定的位置已经完全被占用，则跳过该片段。这一操作确保了序列中较高层次的梯元（ladderon）具有更重要的意义。通过这种“拼图”过程，我们不仅能够高效生成新肽序列，还能够确保关键的功能片段被保留下来。

基于梯径方法生成新肽的步骤

虚拟对接筛选与迭代优化

生成了大量多肽序列后，需要找到最有潜力的多肽来继续优化。首先，利用PsiPred工具预测这些多肽的螺旋结构，因为在与MCL-1的结合中螺旋性起着重要作用。随后，挑选出螺旋性最好的肽，并通过MODPEP生成它们的三维结构，再使用HDock进行蛋白对接分析。HDock能够快速高效评估多肽与MCL-1的结合效果。

当选出表现最好的多肽，会将其加入原始多肽库，形成一个扩展版的多肽库，用于下一轮生成和筛选。随着每次迭代，多肽的螺旋结构逐渐增强，对MCL-1的结合能力也在逐渐提升如下图。最终，经过几轮优化，我们成功筛选出了与MCL-1结合更紧密、螺旋性更强的多肽序列。

随着迭代，设计的多肽性能提升

BH3样肽与MCL-1结合的MD模拟

为了更好地了解生成多肽与MCL-1的结合的稳定性，我们从PepHiRe生成的多肽中挑选了50条表现最好的多肽进行分子动力学（MD）模拟。每条多肽会分别与5个不同结构的MCL-1蛋白对接，并进行了50ns的模拟，以确保它们的结合在不同条件下都足够稳定。

结果表明，大多数多肽的结合结构在模拟过程中达到了稳定状态。随后，我们使用MM/GBSA方法计算了这些肽的结合自由能，前10名多肽的结合力表现尤为突出，说明它们与MCL-1的结合非常紧密。

之后对结合最好的10条肽进行了进一步的结构模拟，发现这些多肽在水中依然保持较高的螺旋性。这种螺旋结构与MCL-1的结合槽非常契合，进一步说明了它们的抑制作用。有趣的是，这些多肽展现了典型的“疏水-亲水”双面结构，很好的模拟了天然BH3蛋白与MCL-1的结合方式，证实了它们在调控MCL-1凋亡通路中的潜力。

通过模拟筛选靶向MCL-1的BH3样肽

BH3样肽的生物活性验证

为了验证筛选出的BH3样肽的实际效果，我们合成了五条在MD模拟中表现最好的肽（p3、p8、p9、p16和p26），并进行了真实的生物实验。通过荧光偏振（FP）实验，这些肽展示了强效的MCL-1抑制作用，IC50值（即半数抑制浓度）在28.13到167.42 nM之间。特别是其中的三条多肽（p3、p8、p16）的抑制效果甚至优于天然的Bim BH3肽（117.11 nM）。这些实验结果表明，PepHiRe设计的多肽不仅在模拟中表现优异，在真实生物实验中也展示出了强大的抑制潜力，证明了它们作为MCL-1抑制剂的有效性。

BH3样肽的生物活性

三、使用PepHiRe设计抗菌肽

为了展示PepHiRe的广泛应用，我们还将其用于设计Magainin抗菌肽。Magainin是一种能够破坏细胞膜的抗菌肽。我们从数据库中收集了95条相关序列，并通过PepHiRe生成了1万条新肽。使用PsiPred工具筛选出螺旋性超过90%的肽后，利用AMPlify模型进一步评估它们的抗菌效果，最终生成了500条具有增强抗菌活性的肽。

与传统的深度学习方法（如LSTM RNN）相比，PepHiRe不仅生成的多肽在螺旋性和抗菌活性上表现得更好（如图），而且计算资源需求更少，速度更快。PepHiRe只需一个CPU，而LSTM RNN则需要更强的GPU支持。

对比PepHiRe和LSTM RNN生成的抗菌肽特性

PepHiRe与经典方法的对比
在广阔的多肽空间中寻找有效序列是一项复杂的任务，PepHiRe通过缩小搜索范围，提高了效率。为验证其效果，我们也将PepHiRe与两种经典方法进行了比较：单点突变法和遗传算法(GA)。
单点突变法通过对已有多肽序列的单个氨基酸进行随机突变生成新多肽。对于同样的任务，从8条已知BH3多肽序列开始，经过迭代生成新序列，同PepHiRe一样也会选出得分最高的多肽加入初始库。结果显示虽然评分有所提升，但新多肽的螺旋结构并未显著改善，且生成的多肽与原始多肽非常相似，仅在少数位置发生变化，说明此方法的探索范围有限，难以有效扩展到更广泛的多肽空间。
遗传算法通过模拟生物进化生成新多肽，具体操作包括交叉和突变，生成并筛选新序列。从8条已知BH3多肽序列开始，虽然螺旋性在迭代过程中逐步提高，但对接评分的提升并不显著，表现完全不如PepHiRe或单点突变法。虽然生成的多肽序列可能比单点突变法更具多样性，但与PepHiRe相比仍显不足。另外，遗传算法需要对更多的多肽进行对接评分，运行速度比其他方法慢了数倍。

结语

PepHiRe是一种基于梯径（Ladderpath）方法的创新工具，能够从已有多肽序列中提炼关键信息，帮助我们设计出功能强大的新型多肽药物。它通过模拟自然进化的过程，从现有多肽中提取出最重要的部分，重新组合为具有生物活性的全新多肽。与依赖大量数据的机器学习方法不同，PepHiRe即使在数据有限的情况下也能高效工作，特别适合早期药物设计中的复杂任务。

未来，PepHiRe不仅可以用于MCL-1抑制剂的设计，还可能扩展到其他多肽和蛋白质领域。通过不断优化和扩展，我们期待这种方法能够在药物设计、结构预测等领域发挥更广泛的作用。

这项工作是基于梯径方法的第五篇研究。之前的研究包括：

关于代码和数据
PepHiRe的源代码可在https://github.com/yuernestliu/pephire免费获取。其中还包括MD模拟的输入文件和输出轨迹、初始配置、拓扑结构、参数、模拟条件以及相应的轨迹文件。

参考文献：

[1] Jacob, F. Evolution and tinkering. Science 1977, 196, 1161−1016.

[2] Zhang, Z.; Liu, C.; Zhu, Y.; Peng, L.; Qiu, W.; Tang, Q.; Liu, H.; Zhang, K.; Di, Z.; Liu, Y. Evolutionary tinkering enriches the hierarchical and nested structures in amino acid sequences. Phys. Rev. Res. 2024, 6 (2), 023215.

[3] Xu, Z.; Zhu Y.; Hong B.; Wu X.; Zhang J.; Cai M.; Zhou D.; Liu, Y. Correlating measures of hierarchical structures in artificial neural networks with their performance. npj Complexity 2024, 1, 15.

[4] Liu, Y.; Di, Z.; Gerlee, P. Ladderpath approach: How tinkering and reuse increase complexity and information. Entropy 2022, 24 (8), 1082.

[5] Liu, Y.; Mathis, C.; Bajczyk, M. D.; Marshall, S. M.; Wilbraham, L.; Cronin, L. Exploring and mapping chemical space with molecular assembly trees. Sci. Adv. 2021, 7, No. eabj2465.

AI By Complexity读书会

大模型、多模态、多智能体层出不穷，各种各样的神经网络变体在AI大舞台各显身手。复杂系统领域对于涌现、层级、鲁棒性、非线性、演化等问题的探索也在持续推进。而优秀的AI系统、创新性的神经网络，往往在一定程度上具备优秀复杂系统的特征。因此，发展中的复杂系统理论方法如何指导未来AI的设计，正在成为备受关注的问题。

集智俱乐部联合加利福尼亚大学圣迭戈分校助理教授尤亦庄、北京师范大学副教授刘宇、北京师范大学系统科学学院在读博士张章、牟牧云和在读硕士杨明哲、清华大学在读博士田洋共同发起「AI By Complexity」读书会，探究如何度量复杂系统的“好坏”？如何理解复杂系统的机制？这些理解是否可以启发我们设计更好的AI模型？在本质上帮助我们设计更好的AI系统。读书会于6月10日开始，每周一晚上20:00-22:00举办。欢迎从事相关领域研究、对AI+Complexity感兴趣的朋友们报名读书会交流！

详情请见：

AI by Complexity 读书会启动：复杂性怎样量化和驱动下一代AI系统

推荐阅读

1. 如何发现不同分子结构之间的关系？用“分子树”探索化学空间

2. 神经网络结构复杂度及其功能表现：梯径理论与算法信息论

3. 巴拉巴西新作：AI-Bind 助力蛋白质-配体结合预测

4. 张江：第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程

5. 龙年大运起，学习正当时！解锁集智全站内容，开启新年学习计划

6. 加入集智，一起复杂！

点击“阅读原文”，报名读书会

http://mp.weixin.qq.com/s?__biz=MzIzMjQyNzQ5MA==&mid=2247700867&idx=2&sn=a923c4243bd29706bbd05dd06c8ca40f

集智俱乐部

关注复杂科学与人工智能的前沿进展、书籍资料、工具文献、交叉前沿等，同时也发布集智俱乐部、集智学园举办的各类讲座、课程等活动相关信息。

最新文章

Nat. Commun. 速递：深度学习预测复杂网络系统韧性

双十一限时特惠！加入集智学园VIP，一次性解锁集智平台所有内容资源

AlphaFold3开源了，诺奖AI工具人人可用，开启生物分子设计新时代

上智院与集智科学研究中心等联合发布“科学智能十大前沿观察”：探索“AI爱因斯坦”的无限可能

生物启发的神经形态AI——从昆虫到微型自主无人机丨周三直播·昆虫智能与AI读书会

基于多尺度建模的机器学习正反问题求解｜周四分享·复杂系统自动建模读书会第二季

混沌、吸引子、分形：复杂非线性系统的多稳定性与不可预测性

PRX Life 进展：细胞状态转化中基因调控网络的动力学研究

大模型2.0读书会：融合学习与推理的大模型新范式！

“双11”共议AI Science“双螺旋引擎”！2024科学智能创新论坛议程和嘉宾阵容公布

科普讲座：涌现、因果与人工智能｜集智进校园·香港浸会大学

科学学视角下 AI 对 Science 的影响丨面向未来的科学学读书会

11.11一年一次限时特惠！加入集智学园VIP，一次性解锁集智平台所有内容资源

阻塞相变：无序体系的一阶相变

圆桌讨论：当 AI 遇见细胞复杂系统｜周二直播·生命复杂性读书会

3D视觉运动计算与应用——从昆虫到机器人丨周三直播·昆虫智能与AI读书会

当复杂科学遇见地球系统：气候网络、复杂性与人工智能

长序列预测 & 时空预测万字长文：一文带你探索多元时间序列预测的研究进展！

冯·诺依曼的遗产：寻找人工生命的理论根源

海量时空数据如何改进 POI 推荐系统？对模型、架构与安全的全面综述

如何创造出超越人工智能的生命系统？从自复制自动机到人工生命丨周日直播·《一种新科学》读书会

如何利用数据提高论文影响力？三万篇论文揭示数据中的重组理论

前沿进展：通过层次结构信息和分子动力学模拟发现高活性肽

整合信息指标 Φ 的近似计算｜周六直播·整合信息论读书会

一作解读：数据中的重组理论如何促进科学影响力丨面向未来的科学学读书会

复杂系统的可解释性动力学推断和临界点预测｜周四直播·复杂系统自动建模读书会第二季

社会性昆虫的行为与群体智能丨周三直播·昆虫智能与AI读书会

时空数据的复杂疾病算法研究和临床应用｜周二直播·生命复杂性读书会

诺奖之后，物理学不存在了？——集智科学家解读2024年诺贝尔奖｜周六直播

整合信息论基础理论：IIT4.0 深入研读｜周日直播·整合信息论读书会

爱因斯坦和固体量子论：还原与演生的两条道路

你和ChatGPT理解语言的方式一样吗？从表征对齐角度比较人工神经网络与生物大脑

诺贝尔物理学奖为何颁给机器学习？Physics for AI 综述介绍

科学计算中的符号回归方法｜周四直播·复杂系统自动建模读书会第二季

简单生物如何形成复杂认知？昆虫智能启发群体智能与集群机器人

学术会议预告｜北京邮电大学第五届“系统论、信息论、博弈论”三论融合学术会议

从结合模型与推理的昆虫神经机制研究到轻量化智能算法设计丨周三直播·昆虫智能与AI读书会

扩散模型与演化算法的隐秘联系

Nat. Commun.速递：多任务神经网络预测多体量子态物理性质

信息整合的统一框架：基于信息几何的视角｜周六直播·整合信息论读书会

寻找机器学习的“热力学”：临界相变如何启发机器学习研究？

南京线下：科学学视角的科技劳动力老龄化丨科学学读书会

注册延长！第九届国际认知神经动力学大会 (9th ICCN2024)

分析约 7500 万篇论文揭示：人工智能如何更好地推动科学创新｜集智科学家最新成果

《城市规模法则》：城市研究和空间科学中的异速生长｜新书速递

复杂社会建模与推演：城市应急管理与智能信息传播｜周四直播·复杂系统自动建模读书会第二季

昆虫也有意识吗？昆虫脑的复杂性与意识的进化

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

前沿进展：通过层次结构信息和分子动力学模拟发现高活性肽

一、多肽药物的潜力与挑战

二、PepHiRe——通过“梯径方法”寻找抗癌多肽药物

为什么是梯径（Ladderpath）？

通过梯径方法解构BH3肽

PepHiRe的架构

基于梯径方法生成新肽

基于梯径方法生成新肽的步骤

随着迭代，设计的多肽性能提升

BH3样肽的生物活性验证

三、使用PepHiRe设计抗菌肽

结语

二、PepHiRe——通过
“梯径方法”寻找抗癌多肽药物