如何表征大分子?

文摘   2024-06-19 08:01   荷兰  


  榴莲忘返 2014  

本文将探讨大分子的表征方法,从简单的线性表征,到复杂的 3D 模型,再到前沿的 AI 技术应用。

大分子的表征之所以困难,是因为存在以下两种类型:

  1. 单分散性: 构成聚合物的单体具有相同的链长。
  2. 多分散性: 由于其随机性,链长无法定义。

此外,大分子的表征越来越倾向于生物信息学。化学信息学在原子级别上表征小分子,而核苷酸和氨基酸序列则以序列信息的形式表征。

从原子级别到序列信息的转变使得大分子的表征面临挑战。现有的表征方法难以有效地捕捉大分子的复杂结构和性质,例如多分散性带来的结构多样性,以及生物活性和功能与其序列信息之间的关系。

接下来我们看看大分子的表征方法有哪些?

参考论文: 

Molecular representations in AI-driven drug discovery: a review and practical guide

https://jcheminf.biomedcentral.com/articles/10.1186/s13321-020-00460-5

基于氨基酸的结构

以氨基酸为基础的结构表征主要用于肽和蛋白质。

  • 氨基酸的简写表征

    • 氨基酸可以使用单字母或三字母代码表征。
    • 局限性:仅能表征有限数量的天然氨基酸,无法表征所有天然和非天然氨基酸。
  • 多肽的表征

    • 肽序列 (peptide sequences) → SMILES
    • SMILES 是单体的结合中包含的原子被排除的
    • 直链构造 (linear structure):各残基相应的 SMILES 连接表示
    • 分枝 (branched)、环状 (cyclized) 构造:单体的索引映射到 SMILES 以及 二硫键等结构可以编码
    • CHUCKLES: 一种能够将氨基酸序列转换为 SMILES 字符串,以及反向转换的方法。

      CHUCKLES 的实际应用包括 BIOPEP-UWM 数据库以及其扩展版本 CHORTLES。

    • HELM (Hierarchical Editing Language for macromoleluces): 基于 SMILES 字符串的一种分层编辑语言,用于表征复杂的大分子结构。

      HELM 能够表征包含多种类型结构的组合,例如:

      HELM2 在 HELM 的基础上进一步扩展,支持表征聚合物混合物和自由形式的注释。HELM 已被许多制药公司采用,并被 ChEMBL 和 RDKit 等数据库和软件包支持。

      HELM 在生物化学信息学领域的应用广泛。通过将原子级别的 SMILES 表征与序列级别的表征结合,HELM 能够更全面地描述肽类药物,例如包含天然 L-氨基酸和非天然 D-氨基酸的混合肽。这对于改善肽类药物的生物利用度和推动其发展至关重要。

    • SCSR (Self-Contained Sequence Representation): 基于 v3000 Molfile 格式的一种表征方法。

  • 蛋白质的表征

    • PDB 数据库: 存储蛋白质三维结构信息,并使用以下信息描述原子:

    • PLN (Protein Line Notation): 由 Biochemfusion 开发并集成到 PubChem 中的一种蛋白质线性表征方法。

      PLN 使用拟原子表征残基结构,可以实现化学结构表征和序列格式之间的无损转换。

  1. 连续编号
  2. 原子名称
  3. 对应残基的名称和编号
  4. 标识链的单字母代码
  5. 空间坐标 (x, y, z)
  6. 占有率
  7. 温度因子

关键大分子: 聚糖

目前已有多个聚糖数据库,但它们主要基于 单糖 的表征方法。

然而,在进行对接等涉及相互作用分析时,原子级别 的表征方法是必不可少的。因此,若要将聚糖作为药物发现中的配体进行研究,仅凭基于单糖的表征是不够的。目前,研究人员正在开发将单糖表征转换为原子级别表征的工具。

WURCS (Web3 Unique Representation of Carbohydrate Structures) 是一种新兴的聚糖表征方法,它能够在原子级别描述聚糖结构。

尽管 WURCS 已被许多数据库采用,但在化学信息学软件中的支持仍然有限。

除了 WURCS 之外,基于药效团和语言模型的方法也在不断发展中。

聚合物药物

BigSMILES 是一种新兴的聚合物表征方法。它可以对多种类型的聚合物进行编码,例如:

尽管 BigSMILES 尚未形成规范化的表征方法,也没有得到广泛应用,但相关研究仍在进行中。

分子和大分子图形表征

除了前面讨论的用于数据存储和化学信息学分析的宏分子表征方法外,还有用于可视化宏分子及其理化特性的图形表征方法。

二维和三维图形表征方法都会进行讨论,图 7 (下图) 展示了一些例子:

2D 表征

二维平面结构图是分子最常用的表征方法,其中骨架结构通常以位图或矢量图的形式呈现(图 7a)。然而,这种方法存在一些问题:

  • 不同软件生成的二维结构图可能存在差异,导致难以比较和分析。
  • 化学结构的二维表征方法有时无法准确反映分子的三维构象。

为了解决这些问题,IUPAC 在 2008 年推荐了一套标准化的二维结构图绘制方法。

此外,许多软件开发人员也在不断改进算法,以生成更美观、准确的二维结构图。

除了用于表征分子结构外,二维图形还可以用于研究反应和相互作用(图 7e),例如:

  • 反应机理图
  • 分子间相互作用图

这类图形着重于表现分子的环境和行为。

除了图 7 中展示的例子,以下三种图形也值得一提:

  • Hashed fingerprints: 用于快速比较分子相似性。
  • Heatmaps: 用于可视化分子性质的空间分布。
  • Circular fingerprints: 用于展示分子结构和性质之间的关系。

3D 表征

常用的三维分子可视化软件包括 Avogadro、PyMOL 和 VMD。它们支持多种分子模型,例如:

  • 球棍模型 (Ball-and-stick): 使用球体表征原子,棍状连接表征化学键,可以清晰地展示分子的键连方式和空间构象。
  • 空间填充模型 (Space-filling): 使用大小与原子范德华半径成比例的球体表征原子,可以更直观地展示分子的形状和体积。
  • 卡通模型 (Cartoon): 使用螺旋、转角等图形元素表征蛋白质的二级结构,可以简化蛋白质结构的展示,突出其整体形态。
  • 表面模型 (Surface): 使用网格或点云表征分子的表面,可以用于分析分子表面的性质,例如静电势、疏水性等。

三维分子模型可以用于多种研究,例如:

  • 分子表面分析: 通过计算分子表面的性质,可以研究分子间的相互作用,例如药物与受体之间的结合。
  • 对接研究: 模拟小分子与生物大分子的结合过程,用于药物设计和筛选。
  • 机理研究: 通过模拟化学反应的动态过程,可以研究反应机理。

一般来说,二维图形表征方法常用于结构活性关系研究,而三维图形表征方法则常用于分子对接和机理研究。

分子表征在药物发现中的 AI 应用

大分子表征

  • 蛋白质结构预测 蛋白质结构预测是大分子表征中一个热门的应用领域。
  • 聚糖研究: 除了蛋白质结构预测,在聚糖领域,AI 也被应用于:
    • 基于拟受体模型的虚拟筛选
    • 利用机器学习分析聚糖-蛋白质相互作用
    • 预测糖基化位点

图形表征

  • 可视化技术的进步: 可视化技术在不断发展,虚拟现实和 3D 打印等新兴技术也被引入其中,以实现更直观、高效的分子结构呈现。
  • 结构挖掘技术: 为了处理日益增长的数据,光学字符识别 (OCR) 技术作为一种结构挖掘技术,被应用于从图形中提取结构信息。机器学习和模式识别技术被用于将 2D 图形转换为标准的化学表征形式,但该领域仍面临一些挑战:
    • 图像质量
    • 化学简写的计算机解释
    • 嵌入文本中的图像
    • 包含多个结构的图形中的图像
    • 反应路径中嵌入的图像
    • 以骨架式或 Marukush 结构表征的图像

讨论

为了解决药物发现中的问题,我们需要同时使用多种表征方法。

以蛋白质结构预测为例, 其流程大致如下:

  1. 从蛋白质序列开始
  2. 创建粗略的 3D 模型
  3. 使用分子动力学方法理解折叠机制
  4. 最终构型和结构预测
  5. 应用于对接计算

此外,以下两点因素也会影响分子表征方法的选择:

  1. 生成表征方法的复杂性
  2. 是否开源

回顾分子表征方法的发展历史,我们不难发现持续流行的表征方法和被淘汰的表征方法之间的差异及原因

首先,计算机技术的进步是分子表征方法变化的一个因素,例如:

  1. 存储容量的增加
  2. 处理器性能的提升
  3. 并行编程的出现

过去的线性表征法 (如 IUPAC-Dyson、WLN) 在当时是合理的,但它们主要由人工操作,难以用计算机处理。随着计算机的普及,这些表征方法逐渐被淘汰。

目前,更易于计算机处理的表征方法 (如分子字符串表征法) 越来越受欢迎。此外,现在也可以使用需要更多计算量的更详细的表征方法 (如哈希指纹)。

另一个因素是化学信息学界的接受程度。更易于人类理解的表征方法 (human-readable) 更受欢迎,因此也更持久。

最后,不同领域的影响也是一个因素。由于历史和延续性的原因,不同的领域 (如化学信息学、生物信息学和人工智能) 在表征方法的选择和使用方面存在差异。

总结

  • 多种表征,各有千秋: 没有一种分子表征方式能够独占鳌头。从 SMILES、InChI 到 HELM、BigSMILES,每种方法都有其优势和局限性,适用于不同的应用场景。
  • 历史演变,持续创新: 分子表征方式并非一成不变。随着计算机技术的进步和学科的交叉融合,新的表征方式不断涌现,例如更加易于机器学习算法处理的分子字符串表征和哈希指纹。
  • 面向未来,AI 赋能: 人工智能正在为药物研发领域带来革命性的变化。分子表征作为连接化学信息与生物信息的桥梁,将在 AI 驱动的药物发现过程中发挥更加重要的作用。

您认为 AI 技术将如何进一步改变分子表征和药物研发领域?欢迎在评论区分享您的观点!

— 完 —

对相关内容感兴趣的读者,可以添加小编微信加入读者实名交流互助群添加时请主动注明姓名-企业-职位/岗位 或  姓名-学校-职务/研究方向

点击这里 👉 关注我,记得标星哦~


榴莲忘返 2014
科研如榴莲,又臭又甜!
 最新文章