iMetaOmics | 东京科学大学奥村学组-Hyena架构蛋白质语言建模

学术 2024-12-17 07:03 中国香港

点击蓝字关注我们

Hyena架构实现快速且高效的蛋白质语言建模

iMeta主页：http://www.imeta.science

研究论文

● 原文链接DOI: https://doi.org/10.1002/imo2.45

●2024年12月7日，东京工业大学奥村学等在iMetaOmics在线发表了题为“Hyena Architecture Enables Fast and Efficient ProteinLanguage”的文章。

● 本研究通过大规模生物序列数据的分析，系统评估了ProtHyena在蛋白质语言建模中的表现。ProtHyena利用Hyena架构进行建模，通过长卷积和门控操作交替，克服了传统Transformer模型中attention机制的计算限制，实现了更高效的计算复杂度和内存使用效率。在蛋白质工程和蛋白质属性预测等8个下游任务中，ProtHyena取得了先进的性能，为从高效的蛋白质序列分析中提供了重要参考，推动了人工智能在生物信息学研究和应用的进一步发展。

● 第一作者：张一鸣

● 通讯作者：奥村学（oku@pi.titech.ac.jp）

● 合作作者：边遍

● 主要单位：东京工业大学工学院、东京大学新领域创成科学研究科、日本产业技术综合研究所人工智能研究中心、北里大学未来工学研究科

亮点

● 新型架构:ProtHyena采用Hyena architecture进行蛋白质语言建模，相较于传统的基于attention的模型，具有更低的计算成本和更少的参数量；

● 先进的性能:在分类和回归任务中取得了领先的结果，并在处理多样化的蛋白质序列时表现出色；

● 高效性：优化了更快的训练速度和更低的内存使用，使得对长蛋白质序列的可扩展建模成为可能。

摘要

自监督深度语言模型的出现彻底改变了自然语言处理任务，并在近期将其应用扩展到了生物序列分析。传统的语言模型主要基于Transformer架构，在各种应用中表现出显著的效果。然而，这些模型固有地受限于attention机制的二次计算复杂度 Q (L²)，这限制了其效率并导致较高的计算成本。为了解决这些限制，我们引入了ProtHyena，这是一种在蛋白质语言建模中利用Hyena operator的创新方法。此方法通过在子二次长卷积和元素级门控操作之间交替，规避了attention机制带来的限制，将计算复杂度降低到子二次水平，从而实现了更快且更内存高效的蛋白质序列建模。ProtHyena能够在包括蛋白质工程（蛋白质荧光和稳定性预测）、蛋白质属性预测（神经肽切割、信号肽、溶解度、无序度、基因功能预测）、蛋白质结构预测在内的8个下游任务中实现最先进的结果和可比的性能，仅需1.6M参数。ProtHyena的架构代表了一种高度高效的蛋白质语言建模解决方案，为快速和高效的蛋白质序列分析提供了一个有前景的方向。

视频解读

Bilibili：https://www.bilibili.com/video/BV1Bnq9YUEtj/

Youtube：https://youtu.be/pOlICV8iq_g

中文翻译、PPT、中/英文视频解读等扩展资料下载

请访问期刊官网：http://www.imeta.science/imetaomics/

全文解读

引言

蛋白质是生物体功能的基础，在细胞过程中发挥着多种作用，从酶催化的生化反应到通过结构蛋白维持细胞形状。理解蛋白质序列对于预测蛋白质的结构和功能至关重要。近年来，许多监督机器学习模型被开发出来，增强了对蛋白质生物学的理解，推动了蛋白质治疗、药物发现和合成生物学的突破。然而，尽管蛋白质数据库在过去几十年中呈指数级增长，为这些序列获取有意义的注释仍然是一个显著的挑战。大多数蛋白质数据库中的序列缺乏功能和结构注释，这突显了需要有效的分析方法来利用大量未标注的蛋白质序列。

蛋白质语言模型(PLMs) 借鉴了自然语言处理 (NLP) 中的自监督预训练方法，如 ESM2、ProtBert 和 ProtT5，革新了蛋白质序列的表示学习。这种方法包括在数百万未标注的蛋白质序列上预训练大型语言模型以学习通用嵌入，然后针对各种特定的蛋白质任务进行微调。这些模型的成功，尤其依赖于attention机制，关键在于其扩展能力和上下文学习能力，使其能够对未见过的数据和任务进行泛化。然而，这些模型的一个显著限制是与输入序列长度相关的二次方计算成本。此成本限制了模型的上下文容量，并阻碍了它们在较长序列中的应用。

为了解决基于Transformer模型的计算需求，研究者们采用了各种策略，如线性化、低秩和稀疏近似，以减少自注意力的计算复杂度。尽管这些方法在降低计算成本方面有效，但通常在模型表达能力和处理速度之间存在折中。为了实现与传统基于Transformer模型可比的性能，必须将这些近似与标准attention层结合，形成一种在效率和效果之间平衡的混合方法。Protein Language Foundation models (PLFMs) 如 Protein RoBERTa使用了Longformer来处理长度最大为2048的蛋白质序列输入。同样，scBERT利用Performer来分析大型单细胞基因表达数据，而MolFormer结合了线性注意力来更有效地捕捉化学原子之间的空间关系。

为了在降低计算负担的同时匹配Transformer的高性能，关键是获得能够保持自注意力三大特性的运算符：数据控制、子线性参数扩展和不受限的上下文。最近的Hyena发展成功实现了这一点，引入了一种由递归结构构成的运算符，该结构结合了两种子二次操作：长卷积和元素级乘法门控。这种创新的运算符保留了自注意力的核心属性，确保了在处理长序列时的高效性，同时不影响复杂依赖关系的建模能力。受到这些进展的启发，我们开发了ProtHyena，将Hyena operator纳入蛋白质语言模型的预训练中。该架构能够比基于自注意力的方法更高效地捕捉蛋白质序列的长距离和单个氨基酸的细节分辨率。预训练模型也可以微调应用于八个不同的下游任务。我们评估了模型性能，发现ProtHyena在许多下游任务中接近甚至超越了最先进的性能，且参数数量极少。在所有实验中，我们观察到与类似配置的基于自注意力的模型相比，我们的模型显著提升了任务表现。这一改进强调了Hyena架构的巨大价值。

结果

ProtHyena在蛋白质语言建模中的概述

本研究中，我们开发了一种快速且参数高效的蛋白质语言基础模型——ProtHyena，该模型在蛋白质序列分析中引入了Hyena operator（图1A和1B）。Hyena operator结合了长卷积、元素级门控和快速傅里叶变换（FFT）卷积方法，用于实现快速且高效的处理（图1A）。ProtHyena采用生成式预训练Transformer策略，用Hyena operator替代了attention层，并通过自回归任务进行预训练（图1C），使用了来自Pfam数据集的1400万条蛋白质序列。随后，我们在各种蛋白质相关任务上对预训练的ProtHyena进行了微调（图1D）。为了与其他已发表的模型进行对比，我们精心选择了8个基准任务，这些任务反映了蛋白质研究的广泛领域，包括蛋白质工程、蛋白质属性和功能预测、以及蛋白质结构理解任务。

图1. ProtHyena框架概述

（A）ProtHyena以Hyena operator作为其核心架构。Hyena operator具有长卷积和元素级门控层，在经过密集层和短卷积修改后对输入进行处理；（B）一个简单的二阶Hyena operator示意图。输入的蛋白质序列x通过三个不同的投影矩阵投影，生成序列v、x₁和x₂和。序列v经过由对角矩阵控制的交替门控操作，以及由h组成的Toeplitz矩阵控制的长卷积操作;（C）生成式预训练策略。输入的蛋白质序列被标记为氨基酸序列。模型结构包括两层Hyena Blocks；每层由Hyena operator、全连接网络、残差连接和层归一化组成。最后一层的嵌入通过多层感知机（MLP）解码为氨基酸;（D）在八个下游任务中对预训练模型进行微调处理。

ProtHyena在蛋白质语言建模中的高效性和性能提升

为了评估基于Hyena operator的ProtHyena在与基于注意力的蛋白质语言模型相比时的有效性，我们还预训练了两个仅包含解码器的注意力模型：ProtGPT-tiny（参数规模为160万，与ProtHyena一致）和更大的ProtGPT-base（参数规模为2520万）（图2A）。这两个模型与ProtHyena一样，均在Pfam数据集中1400万条蛋白质序列上进行训练，批量大小为256，训练步数相同。图S1展示了本研究中使用的其他蛋白质语言模型的详细参数对比。

研究结果显示，ProtHyena在模型中实现了最低的困惑度（perplexity），这表明其预测准确性更高（图2A）。在语言建模中，困惑度是衡量模型预测序列中下一个元素能力的指标，如预测蛋白质中的氨基酸。较低的困惑度意味着模型对其预测的确定性更高。例如，若模型的困惑度为20，则相当于模型在预测下一个序列元素时从20个可能选项中进行选择。理论上，最佳困惑度为1，表示模型对下一个氨基酸的预测完全确定。

在本研究中，ProtHyena的困惑度显著低于其他模型，具体为：ProtGPT-tiny为2.48，ProtGPT-base为2.00，ProtHyena为1.47。这意味着，平均而言，ProtGPT-tiny在预测下一个氨基酸时考虑2.48个选项，ProtGPT-base考虑2.00个选项，而ProtHyena仅考虑1.47个选项。即使与更大的ProtGPT-base相比，ProtHyena较低的困惑度凸显了其预测氨基酸时的信心和准确性，展示了其在处理蛋白质序列复杂性方面的高效性及Hyena operator的有效性。

为了进一步验证ProtHyena相较于基于Transformer的模型的效率，我们在NVIDIA RTX 3090 GPU上进行了测试。我们比较了ProtHyena和参数数量相同的ProtGPT-tiny在不同批量大小（16、32、64）和最大序列长度（512、1024）下的内存使用和计算时间成本。选择ProtGPT-tiny作为对照模型，是为了在参数相同的情况下公平地比较运行时间和GPU内存使用情况。对于参数较多的模型，运行时间和GPU使用量自然更高，因此直接比较这些数据无法准确评估ProtHyena的效率。

结果（图2B）显示，ProtHyena在内存使用方面始终显著低于ProtGPT-tiny。特别是在将序列长度从512翻倍到1024时，ProtHyena的内存使用增加并不显著。在计算时间成本方面，以每秒前向迭代次数衡量，ProtGPT-tiny仅在批量大小为16、序列长度为512的较小数据场景中略有优势（图2C）。然而，在实际预训练阶段，通常使用较大的数据集和批量大小，此时ProtHyena的效率显著提升。在所有其他测试条件下，尤其是批量大小为64和序列长度为1024的情况下，ProtHyena的速度大约是ProtGPT-tiny的两倍。这些发现表明，虽然ProtGPT-tiny在特定小规模场景中可能稍占速度优势，但在大规模预训练中，ProtHyena更具资源效率且更快。我们在补充表S1中提供了在六个下游任务中的每轮训练平均时间，进一步证实了ProtHyena不仅在预训练中速度更快，在微调时也如此。

图2. 各模型间参数数量、性能和资源使用情况的比较

（A）ProtGPT-tiny、ProtGPT-base和ProtHyena的参数和预训练比较。较低的困惑度表示在蛋白质序列预测中的表现更佳；（B）在不同批量大小和最大序列长度下，各模型的GPU内存消耗对比；（C）不同模型在不同批量大小和序列长度下的计算时间成本（每秒迭代次数）。

ProtHyena能够准确预测荧光强度

由于Aequorea victoria的绿色荧光蛋白（avGFP）能够自然发荧光，它在分子和细胞生物学中被广泛用作标记，可实时观察和跟踪生物过程。我们的研究从预测Aequorea victoria绿色荧光蛋白（avGFP）荧光图谱的任务开始，使用通过随机诱变获得的数万种avGFP基因型数据。数据显示，avGFP的野生型和大多数单突变基因型表现出亮绿色荧光。然而，随着突变的累积，有些基因型会经历负性互作，导致荧光丧失（灰色表型）。在其他情况下，可能会出现正性互作，即使在无荧光基因型中也能恢复荧光（图3A）。通过评估大量基因修饰avGFP序列的荧光水平，我们可以更好地理解突变如何影响蛋白质的荧光。这种方法不仅揭示了遗传变异对蛋白质稳定性的影响，还帮助设计具有期望特性的蛋白质，并为类似蛋白质的进化动态提供了见解。

在训练过程中，我们使用了一个包含与母体GFP的Hamming距离为3以内变体的数据集，这些变体由于突变较少，通常表现出更亮的表型。相对地，测试集包含四个或更多突变的变体，通常表现为较暗的表型（图3B）。通过在较少突变的蛋白质上训练（突变数为3或以下），并在更多突变的蛋白质上进行测试（突变数为4或以上），我们能够有效地评估模型的泛化能力，展示其在未见数据上的表现。

为了比较ProtHyena，我们评估了一个传统的深度学习模型，即卷积神经网络（CNN），以及一些预训练的蛋白质语言模型（如ESM1-b、ESM-1v、ESM-2b、ProtBert-U100、ProtBert-BFD、ProtT5-XL-U50），还包括我们预训练的两个蛋白质语言模型，ProtGPT-tiny和ProtGPT-base。尽管CNN和其他预训练的蛋白质语言模型具有大量参数并在广泛的数据集上进行训练，但在捕捉由相似突变引起的荧光强度细微差异时，它们表现较差。相比之下，ProtHyena的Spearman相关系数达到0.68，超越了表现第二好的模型ProtT5-XL-U50，领先0.2（图3C）。此外，ProtHyena在均方误差（MSE）、平均绝对误差（MAE）和Student’s t-loss方面也显著优于其他模型，分别取得了0.15、0.21和0.09的分数（图3D）。

在各种蛋白质语言模型的带拟合线的散点图中（图4），大多数模型在较低真实值（约1.5到2.0）时倾向于过度预测，而ProtHyena在捕捉低值（约1.5到2.0）和高值（约3.0到4.0）数据点集方面表现最佳。ProtHyena在低值和高值真实值附近预测点的集中度最高，反映了其出色的Spearman相关性得分。

图3. 荧光预测任务

（A）野生型avGFP（中心）及大多数单突变体（最内层圆圈）发出绿色荧光。具有多个突变的基因型可能表现出负性互作，即多个中性突变的组合导致无荧光（灰色）表型，或表现出正性互作，即在无荧光基因型中某个突变恢复了荧光。训练集包含相对较亮的3个突变样本，而测试集则包括更多（4个或以上）突变的样本；（B）训练集和测试集的对数荧光分布。训练集的中心值约为3.6，而测试集的中心值约为1.4;（C）ProtHyena和其他蛋白质语言模型在荧光图谱预测中的Spearman相关系数（D）ProtHyena和其他蛋白质语言模型在荧光图谱预测中的损失指标。我们使用的损失指标包括MSE、MAE和Student’s t损失。统计显著性通过在其他模型与ProtHyena之间进行的Student’s t检验确定，显著性标记如下：*p < 0.05，**p < 0.01，***p < 0.001。

图4.荧光预测任务的散点图及拟合线

这些图比较了不同模型在预测值（x轴）和真实标签（y轴）上的表现。每个图中显示了一条线性拟合线和Spearman相关系数，指示预测的准确性。(A) ESM-1b，(B) ESM-1v，(C) ESM-2，(D) ProtBert-U100，(E) ProtBert-BFD，(F) ProtT5-XL-U50，(G) ProtGPT-tiny，(H) ProtGPT-base，(I) ProtHyena。

ProtHyena增强了蛋白质稳定性的预测

蛋白质稳定性对于生物系统中蛋白质的正常功能和寿命至关重要。稳定的蛋白质在生理条件下保持其结构完整性，确保它们能够有效地执行预期的生物活性。为了进一步测试ProtHyena的能力，我们评估了其在稳定性图谱预测任务中的表现。

我们收集了数据，包括53,679条训练序列、2,447条验证序列和12,839条测试序列。每个蛋白质序列都有一个实数值标签，表示蛋白质在超过特定浓度阈值下保持折叠状态的最极端条件（作为内在稳定性的代理）。此数据集也适用于测试对未见蛋白质的泛化能力。训练集包含了四轮实验突变设计中的蛋白质，而测试集由最有前途的候选蛋白质的单突变邻近体组成（图5A）。这种安排导致了训练和测试数据集中稳定性评分的分布差异（图5B）。稳定性评分指的是通过热变性在40°C下测得的展开自由能（△G_unf）。正值表示蛋白质的折叠状态更稳定，需要能量来展开；负值则表明未折叠状态更稳定，表示在这些条件下蛋白质更易展开。

在这一基准测试中，ProtHyena实现了0.70的Spearman相关系数。我们进行了ProtHyena与其他模型的Student’s t检验。除ProtT5-XL-U50外，ProtHyena显著优于所有其他模型（图5C）。此外，ProtHyena在预测准确性方面表现优异，其均方误差（MSE）、平均绝对误差（MAE）和Student’s t损失得分分别为0.10、0.26和0.09，远低于其他模型（图5D）。尽管ProtT5-XL-U50在预测稳定性评分时与ProtHyena的相关性相似，但其MSE和MAE较高。这是因为ProtT5-XL-U50倾向于预测比真实值低的稳定性评分。这可能是由于ProtT5-XL-U50基于Transformer的架构，依赖于自注意力机制。该机制在捕捉序列中的长程依赖和全局信息方面非常有效，使模型能够识别氨基酸之间的远距离相互作用。因此，该模型在捕捉样本间的相对关系方面表现出色，解释了其高Spearman相关性。换句话说，它可以区分更稳定和不太稳定的蛋白质序列。然而，这种对全局模式的重视有时会导致Transformers忽略细微的局部特征。在蛋白质稳定性任务中，局部氨基酸结构的小变化可能对稳定性有显著影响。由于Transformers优先考虑全局序列特征，它们可能无法准确预测这些细微的稳定性变化，导致预测值出现偏差。图6中的带拟合线的散点图显示，ProtHyena的预测更集中，表明更高的相关性。研究结果表明，ProtHyena的预测更加精确，对异常更具鲁棒性，并且较少受到生物数据集中常见的实验噪声的影响。

图5. 稳定性预测任务

（A）稳定性任务包括在大量蛋白质上进行训练，然后在与样本中最有前途的候选蛋白质仅相差一个突变的蛋白质上进行测试；（B）训练集和测试集的稳定性评分分布；（C）ProtHyena和其他蛋白质语言模型在稳定性图谱预测中的Spearman相关系数；（D）ProtHyena和其他蛋白质语言模型在稳定性图谱预测中的损失指标。我们使用的损失指标包括MSE、MAE和Student’s t损失。统计显著性通过在其他模型与ProtHyena之间进行的Student’s t检验确定，显著性标记如下：*p < 0.05，**p < 0.01，***p < 0.001。

图6. 稳定性预测任务的散点图及拟合线

这些图比较了不同模型在预测值（x轴）和真实标签（y轴）上的表现。每个图中显示了一条线性拟合线和Spearman相关系数，用以指示预测的准确性。(A) ESM-1b，(B) ESM-1v，(C) ESM-2，(D) ProtBert-U100，(E) ProtBert-BFD，(F) ProtT5-XL-U50，(G) ProtGPT-tiny，(H) ProtGPT-base，(I) ProtHyena。

ProtHyena能够准确预测蛋白质性质

预测蛋白质属性至关重要，因为它提供了关于蛋白质行为和功能的重要见解。在这一部分中，我们专注于四个与蛋白质属性和功能预测相关的关键任务：Neuropeptide Cleavage Prediction（神经肽切割预测）涉及预测大前体蛋白酶切位置以生成较小的肽，这些肽在神经传递和多种生理过程中起作用，显示出其在神经和身体功能中的重要性。Protein Disorder Prediction（蛋白质无序预测）任务中，将蛋白质序列分类，将每个残基标记为“有序”或“无序”。Solubility Prediction（溶解性预测）旨在预测给定的蛋白质是否可溶。Signal Peptide Prediction（信号肽预测）则预测来自不同物种组（真核生物、古菌、革兰氏阳性细菌和革兰氏阴性细菌）的整个蛋白质序列是否具有信号肽。这些任务对于理解不同条件下蛋白质的生物学角色和行为至关重要。

在图S2中，我们展示了四个二元分类任务的标签分布。值得注意的是，只有溶解性任务的标签相对平衡。在Neuropeptide Cleavage Prediction任务中，0和1的比例约为3:7。在Disorder Prediction任务中，几乎所有标签都是1，0非常少。在Signal Peptide Prediction任务中，0和1的比例约为2:8。为了更好地评估模型在这些不平衡数据集上的表现，我们使用了宏F1、Matthew’s Correlation Coefficient（MCC）和接收者操作特征曲线下面积（AUROC）等指标。

在模型性能评估中，我们开发的ProtHyena模型表现出色。在Neuropeptide Cleavage Prediction任务中，ProtHyena以0.9656的准确率和0.9194的MCC领先，展示了其在预测关键切割位点方面的卓越能力，优于ESM和ProtBert系列等其他领先模型（图7A）。在Protein Disorder Prediction任务中，ProtHyena也表现出色，实现了最高的MCC为0.4703，以及具有竞争力的宏F1分数为0.3276，表明其在处理复杂蛋白质特性方面的有效性（图7B）。

在Signal Peptide Prediction任务中，尽管在F1和MCC上略逊于ProtT5-XL-U50，ProtHyena依然展现了0.9754的稳健准确率和0.9921的出色AUROC，突出其在不同物种组中准确检测信号肽的能力（图7C）。最后，在Solubility Prediction任务中，ProtHyena以0.724的最高准确率和0.8146的AUROC超过了所有模型，证实了其在确定蛋白质溶解性方面的强大预测能力，而溶解性往往很难准确预测（图7D）。

我们在图8中绘制了所有9个蛋白质语言模型的ROC曲线，以提供更清晰的对比。在三个不平衡任务（Neuropeptide Cleavage、Disorder和Signal Peptide）中，各模型表现相似，处理不平衡数据的能力没有显著差异。然而，在平衡任务（Solubility）中，ProtHyena表现最佳，突出其在平衡数据集上的卓越能力。这表明，尽管其他模型可能难以在平衡设置中捕捉细微差别，ProtHyena由于能够有效处理局部和全局特征，因而在这些方面具有优势。

图7. 不同蛋白质属性任务的评估

每个任务使用准确率、F1宏分数、Matthew’s相关系数（MCC）和接收者操作特征曲线下面积（AUROC）进行评分。(A) 各模型在神经肽切割预测中的评估。(B) 各模型在无序预测任务中的评估。(C) 各模型在信号肽预测中的评估。(D) 各模型在溶解性预测中的评估。

图8. 不同蛋白质属性任务的接收者操作特征(ROC) 曲线

这些ROC曲线展示了不同模型在四个蛋白质属性预测任务中的分类性能：(A) 神经肽切割，(B) 无序预测，(C) 信号肽预测，(D) 溶解性预测。x轴表示假阳性率，y轴表示真阳性率。每条曲线对应一个模型，曲线下面积（AUC）值指示了模型在每个任务中区分类别的能力。

使用ProtHyena进行病毒蛋白的功能预测

基因功能预测对于理解生物系统中的基因作用和相互作用至关重要，特别是在微生物生态学和病毒学等领域。这些预测在环境样本中识别新发现基因的功能尤为有价值，其中许多序列缺乏已知参考。蛋白质语言模型（PLMs）通过直接从序列数据中捕获氨基酸的物理化学特性和功能同源性，推动了这一领域的发展。PLMs超越了传统的序列同源方法，这些方法在应对蛋白质的快速进化变化时常常失效，因此PLMs能够促进病毒蛋白家族更准确的注释。这种改进的注释显著推进了我们对病毒功能的理解，并支持生物学发现，包括在各种生态样本中识别关键的病毒酶和结构蛋白。

为了进一步评估ProtHyena在基因功能预测中的有效性，我们将其应用于病毒基因功能注释。我们的注释基于PHROGs数据库，这是一个精心整理的集合，旨在捕捉远程序列同源性，并手动注释为高级功能类别。PHROGs第3版包含868,340条蛋白质序列，分为38,880个家族。其中，5,088个家族被分类为九个功能类别。删除无注释的蛋白质后，我们获得了472,683条病毒蛋白用于进一步分析。我们采用五折交叉验证方法，比较了ProtHyena与其他模型（如ProtGPT-tiny和ProtGPT-base）的性能。结果表明，ProtHyena的表现优于其他模型，在所有类别和折叠中平均接收者操作特征曲线下面积（AUROC）达到0.84（图9A），平均精确度-召回曲线下面积（AUPRC）为0.50（图9B），显示出其在病毒基因功能预测中的能力。

图9. PHROG病毒蛋白家族的功能类别分类

(A) 使用接收者操作特征曲线下面积（AUROC）来评估ProtGPT-tiny、ProtGPT-base和ProtHyena的表现；(B)使用精确度-召回曲线下面积（AUPRC）来评估ProtGPT-tiny、ProtGPT-base和ProtHyena的表现。

讨论

蛋白质语言模型（PLMs）通过实现对蛋白质结构和功能的高级分析和预测，彻底改变了生物信息学领域。这些模型受到自然语言处理的启发，将氨基酸序列视为“句子”，利用深度学习技术来理解和预测蛋白质属性。然而，近年来开发的蛋白质语言模型面临计算挑战。在本研究中，我们提出了ProtHyena，这是一种整合Hyena operator的新型蛋白质语言模型，旨在解决基于attention的蛋白质语言模型所面临的计算问题。ProtHyena不仅能够高效处理蛋白质序列，使用较少的GPU内存和计算时间，还能在许多蛋白质相关的下游任务中达到甚至超越最先进的性能。ProtHyena仅需传统模型一小部分的参数，展示了在蛋白质序列分析领域的重要进步。

我们在包含8个不同任务的庞大Pfam数据集上的全面预训练和微调展示了该模型以高精度捕捉复杂生物信息的能力。在这些任务中的五个任务中，我们的模型实现了最先进的性能，而在其余任务中表现与现有基准相当。Hyena operator的采用使ProtHyena能够以子二次时间复杂度运行，使其成为分析生物序列的快速高效工具。

蛋白质设计的重要性在于其通过创建具有用户定义功能的蛋白质来变革工业和学术领域的潜力，这可推动医学和生物技术的突破。ProtHyena在荧光图谱和稳定性预测中的出色表现为蛋白质设计和工程应用带来了希望，提供了对突变影响的洞察，从而促进了定制蛋白质的开发。此外，其优异的表现有助于加深对分子进化的理解，为荧光和其他蛋白质功能的发展提供了新的视角。这些知识不仅与进化研究和种群遗传学相关，而且在设计用于基因表达分析、蛋白质定位和相互作用研究的荧光标记物和报告基因时具有实际应用价值，这些都是基础研究和治疗开发中的关键要素。

在病毒基因功能预测任务中，ProtHyena表现优于其他模型，使其成为一种强大的发现工具和传统比对方法的极佳补充。这些能力对于推动我们对全球病毒群体功能动态的理解至关重要。

我们在不同蛋白质属性和功能任务上的比较评估显示，基于ESM、ProtBert或ProtT5框架的模型在各种任务中的表现与ProtHyena相近。特别是，ProtHyena在如神经肽切割预测和无序预测等相对简单的任务中表现出最先进的结果，这归因于其在小规模数据集上的有效预训练和较少的参数。相比之下，Transformer模型通过增加模型规模和训练规模（如ESM-2、ProtBert和ProtT5）提升了性能，但达到一定水平后性能增益趋于平稳，这表明仅靠规模扩展的性能提升是有限的。这些结果强调了ProtHyena在多项任务上的稳定表现及其有效性和跨任务适用性。

在蛋白质二级结构预测中，ProtHyena的表现相较于ESM系列、ProtBert和ProtT5-XL等模型（图S3）略显不足。蛋白质二级结构预测是一个涉及到L长度蛋白质的3^L个可能性的残基级任务，考虑到每个残基有三种结构类别。相比之下，蛋白质无序预测也是残基级任务，但其搜索空间小得多，仅为。二级结构预测的指数复杂性突显了数据驱动学习的必要性，并表明通过自注意力机制全面学习每个残基的角色至关重要。如Evo模型中所引入的结合卷积层、多头注意力机制和旋转位置嵌入的混合模型，可能会提高蛋白质二级结构预测的性能。

未来，我们计划扩展ProtHyena，以充分利用其能力和精度，同时探索用于预训练的掩码语言建模方法，以扩大其适用性。我们引入的架构为蛋白质语言模型设立了新的标杆，为该领域未来的发展提供了一个有前景的框架。

结论

在本文中，我们开发了基于Hyena架构的新型蛋白质语言模型ProtHyena。ProtHyena克服了传统基于attention模型的挑战，大幅降低了内存需求和训练时间，同时在各种蛋白质相关任务中仍保持高准确性。其在蛋白质序列建模中的出色表现，尤其是在荧光和稳定性图谱预测中的优异表现，展示了其在蛋白质设计及蛋白质功能和属性预测中的实际应用潜力。总之，ProtHyena成功将前沿架构与生物任务整合，不仅展示了其实际应用价值，还为未来在蛋白质分析和设计中的创新提供了坚实的基础。

方法

预训练和下游任的蛋白质序列数据务数据

与先前研究一致，我们从Pfam数据库（版本32.0，访问日期为2024年5月16日）收集了涵盖多样进化分类的1400万条蛋白质序列用于预训练。

下游任务的数据集如下：从TAPE数据集中下载了54,025条Aequorea victoria绿色荧光蛋白序列。训练集包括原始蛋白的3个突变邻域，测试数据来自4-15个突变邻域的样本。训练集包含21,446条序列，验证集包括5,362条序列，测试集由27,217条序列组成。

我们从数据集中获得了用于稳定性预测任务的56,126条训练序列和12,851条测试序列。训练集源自四轮实验数据，测量了大量候选蛋白的稳定性。测试集包括在这四轮实验中识别出的有前途的蛋白质周围的18个单突变邻域。

我们从早期的研究中获得了由3,366条蛋白质组成的神经肽切割基准数据集。目标是预测一个碱性残基（K或R）是否会被切割，其中所有候选序列都具有信号肽。

用于蛋白质无序预测任务的数据集包含来自11361条蛋白质的序列。目标是预测序列中的每个残基是“无序”还是“有序”。

我们从数据集中获得了28,972条可溶和40,448条不可溶蛋白质序列，用于溶解性预测任务。一个独立的测试集，包括1,000条可溶和1,001条不可溶蛋白质序列，源自另一项研究。

用于信号肽预测的基准数据集包含24,910条蛋白质序列，旨在预测整个蛋白质序列是否具有信号肽，数据来自SignalP 5.0。

我们从PHROGs v3数据库中获得了472,683条病毒蛋白序列，这些序列被聚类为5,088个家族，这些家族根据九个功能类别进行注释，用于病毒蛋白功能预测。

用于二级结构预测的残基级数据集包含13,474条蛋白质，涉及3类（螺旋、链和其他），来自TAPE基准数据集。

我们在表1中总结了这些下游任务。

分词

我们使用天然的蛋白质词汇，将每个氨基酸视为一个独立的标记。这些标记代表20种标准氨基酸，分别用字符‘D’、‘N’、‘E’、‘K’、‘V’、‘Y’、‘A’、‘Q’、‘M’、‘I’、‘T’、‘L’、‘R’、‘F’、‘G’、‘C’、‘S’、‘P’、‘H’和‘W’表示。此外，我们还包括了用于较少见氨基酸的五个字符，以及表示填充、分隔和未知字符的特殊标记。每个标记映射到维度为D的嵌入，以便在我们的模型框架中对蛋白质序列进行表示和处理。此方法实现了对蛋白质序列的全面和准确编码，对于有效的分析和建模至关重要。

ProtHyena架构

我们ProtHyena框架的整体结构如图1A所示。Hyena operator通过递归结构定义，结合长卷积和元素级门控，如下公式所示：

其中，v,x₁,…,x_n表示输入投影，N表示递归次数，·表示元素级门控操作，表示长卷积。

具体来说，图1B展示了N = 2 的Hyena operator的可视化表示。在处理长度为的输入序列x时，Hyena operator的应用如下：

在Hyena块之后，我们引入了一个多层感知机（MLP）解码头。在预训练阶段，通过softmax函数预测每个输入氨基酸标记的下一个标记。在微调阶段，对于标记级任务，每个标记与标签输出相关联。相反，对于序列级任务，所有标记的最终嵌入进行平均并通过softmax函数处理以预测标签。这种结构化方法允许在单个标记的细粒度和整个序列的广泛上下文中进行精确预测，促进了在蛋白质序列分析中的多功能应用。

ProtHyena的预训练

为了对ProtHyena进行预训练，我们按照相关指南采用了基础配置。我们的设置从两个递归阶数为N = 2的Hyena层开始。模型的嵌入尺寸设置为256，包含1024个前馈隐藏单元。批量大小设定为256，在训练期间，ProtHyena的最大蛋白质序列长度保持为1024。我们为ProtHyena使用类似于GPT的自回归训练框架，通过最大化基于前面氨基酸序列预测下一个氨基酸的概率进行预训练。给定一个包含氨基酸序列(a₁,a₂,…,a_N)的蛋白质，我们试图最大化以下概率：

其中，P(ai|a1,a2,…,ai-1)表示在特定蛋白质序列中给定所有前面氨基酸时氨基酸ai的条件概率。

rotGPT-tiny和ProtGPT-base的预训练

ProtGPT-tiny由两层transformer解码器组成，其嵌入尺寸和前馈隐藏单元与ProtHyena匹配，具有相同的可训练参数量。相比之下，ProtGPT-base规模更大，包含8层transformer解码器，嵌入尺寸为512，前馈隐藏单元为2048。批量大小设置为256，训练期间，ProtGPT-tiny的最大蛋白质序列长度保持为1024。由于内存限制，ProtGPT-base的最大长度限制为512。训练使用Adam优化器进行，初始学习率为0.0006，并采用余弦衰减学习计划。总训练步数约为30,000。

预训练ProtHyena、ProtGPT-tiny和ProtGPT-base的模型指标

我们使用困惑度（perplexity）来衡量ProtHyena、ProtGPT-tiny和ProtGPT-base预训练的有效性。困惑度是一种用于自然语言处理以及扩展到蛋白质语言建模的度量，评估概率模型预测序列的能力。较低的困惑度得分表明模型对样本预测得更准确，意味着更好的性能。其数学定义为蛋白质序列的平均负对数似然的指数形式。如果我们考虑长度为L的蛋白质序列A，其标记（在蛋白质情况下为氨基酸）的困惑度PPL计算公式为：

其中，(a₁,a₂,…,a_N)是模型根据序列的概率。可以进一步表示为：

在我们的情况下，为了数值稳定性和简化计算，困惑度通过交叉熵损失的指数计算：

其中，H(A)是序列A的交叉熵，定义为：

下游任务的微调

对于ProtHyena、ProtGPT-tiny、ProtGPT-base及其他对比模型，我们从蛋白质序列中提取嵌入用于下游任务。这些嵌入通过新的解码器（线性层）生成预测结果，并与标签进行比较以计算损失。

对于残基级任务，如蛋白质无序预测和二级结构预测，嵌入是维度对应于批量大小、序列长度和隐藏维度的张量。模型为序列中的每个位置生成预测（批量大小，序列长度）。对于蛋白质级任务，如神经肽切割、信号肽预测、溶解性、荧光、稳定性和病毒蛋白功能预测，我们在序列长度上对嵌入进行平均，以生成整个蛋白质的单个预测。

下游任务的评价指标

对于回归任务（荧光和稳定性预测），我们使用Spearman相关系数、均方误差（MSE）、平均绝对误差（MAE）和Student t损失来评估模型性能。Spearman相关系数衡量两个排序变量之间的关联强度和方向；MSE量化观测值与预测值之间的平均平方差；MAE衡量误差的平均幅度；Student’s t-loss则考虑误差的分布。

对于二元分类问题（切割、信号肽、溶解性和无序预测），我们报告的性能指标包括准确率、F1宏分数、Matthew’s相关系数（MCC）和接收者操作特征曲线下面积（AUROC）。准确率衡量正确预测的比例，F1宏分数评估精确度和召回率之间的平衡。MCC非常适合用于评估不平衡数据集上的模型，并适用于二元和多类分类问题。它考虑了真阳性（TP）、真阴性（TN）、假阳性（FP）和假阴性（FN），从而评估模型在所有类别上的性能。

MCC的取值范围为-1到1：

MCC = 1：模型预测完美，无错误。

MCC = 0：模型表现与随机猜测无异。

MCC = -1：模型预测完全错误，所有正样本预测为负，反之亦然。

MCC的计算公式为：

与其他蛋白质语言模型的比较

为了评估ProtHyena，我们还对预训练的ProtGPT-tiny、ProtGPT-base以及其他预训练的蛋白质语言模型（包括ESM-1b、ESM-1v、ESM-2、ProtBert-U100、ProtBert-BFD和ProtT5-XL-U50）在八个蛋白质相关的下游任务中进行了微调。ESM-1b和ESM-2均为基于Transformer编码器架构的650M参数模型，使用掩码语言建模目标进行训练。这些模型之间的主要区别在于其训练数据和位置编码方法。ESM-1b在27.1百万UniRef50代表序列上训练，并在位置嵌入层中使用可学习的正弦编码。而ESM-2在6000万条蛋白质序列上训练，并采用旋转位置嵌入（Rotary Position Embedding），使模型能够在其训练的上下文窗口之外进行外推。此外，ESM-1v共享ESM-1b的架构，是一个专门设计用于预测变体效应的650M参数Transformer语言模型，训练于覆盖各种进化谱系的9800万条蛋白质序列的多样化数据集上。ProtBert-U100和ProtBert-BFD均为基于BERT架构的420M参数模型。ProtBert-U100在包含2.16亿条蛋白质序列的UniRef100上训练，而ProtBert-BFD在包含21.22亿条蛋白质序列的BFD上训练。此外，ProtT5-XL-U50是基于T5架构的模型，参数量达30亿，在UniRef50上进行训练。此外，我们还在荧光图谱强度预测任务中应用了一种非注意力机制的深度学习模型（CNN）。该CNN模型使用35个残差块，每个块包含两个卷积层，具有256个滤波器、核大小为9、扩张率为2，总共包含4100万可训练参数。

下游任务定义及生物学重要性

任务1：荧光图谱预测定义：此任务为回归分析形式，每个输入（由蛋白质序列表示）被分配一个数值标签，该标签表示蛋白质的对数荧光强度。生物学重要性：对于长度为L的蛋白质，m次突变导致的可能序列总数约为O(L^m)，这一庞大空间对于实验方法的全面探索来说很难实现，尤其是在值较大时。此外，存在的多重位点突变间的相互作用（表位效应）使得简单的增量优化技术难以奏效。准确的计算预测可显著简化这一复杂图谱的探索过程，从而发现更优的解决方案。机器学习方法在蛋白质工程相关任务中已显示出良好的前景。

任务2：稳定性图谱预测定义：此任务被设定为回归问题，每个输入蛋白质与一个数值标签相关联，该标签表示蛋白质在某一浓度水平以上维持其结构的最苛刻条件，是其内在稳定性的指标。生物学重要性：创建稳定蛋白质至关重要，尤其是在药物递送等应用中，确保药物在到达目标之前保持完整。更广泛地讲，能够筛选大量蛋白质数据以定位和优化最佳候选者可以显著提高昂贵蛋白质工程实验的效率和产出。

任务3：神经肽切割预测定义：此任务涉及预测给定蛋白质序列中每个氨基酸残基是否为切割位点，这对于理解蛋白质如何通过翻译后修饰进行加工和激活至关重要。生物学重要性：这些切割过程在激活或去活化参与内分泌和神经系统通信的蛋白质和肽中起着关键作用。准确预测这些位点有助于基因组范围内的新蛋白质组分析，提供蛋白质功能见解，并发现新的生物活性肽。

任务4：无序预测定义：该任务旨在分析给定的蛋白质序列，将区域分类为“有序”或“无序”。有序区域是蛋白质的结构部分，而无序区域在生理条件下缺乏固定的三维结构。生物学重要性：识别蛋白质中的无序区域对于理解其在生物过程中的角色至关重要。无序区域因其灵活性和与多个伙伴结合的能力，常参与细胞内的信号和调控机制。识别这些区域有助于预测蛋白质功能、理解疾病机制，并发现潜在的药物靶点。

任务5：信号肽分类定义：信号肽分类任务是分析每个蛋白质序列以识别N端的短片段，即信号肽（SP）。这些SP将蛋白质引导至细胞内或跨膜运输。SignalP 5.0引入了一种基于深度神经网络的方法，不仅预测SP的存在，还区分三种类型的原核生物SP。生物学重要性：检测和分类信号肽对于理解细胞内蛋白质的靶向和跨膜运输机制至关重要。SP引导蛋白质到达正确的细胞内或细胞外位置，这对于蛋白质功能和细胞组织尤为重要。准确识别SP在微生物学和医学中尤为重要，如追踪抗生素抗性基因的出现或发现新的基因组编辑技术中的酶。区分不同类型的SP提高了对蛋白质路径和功能的理解，有助于生物医学研究和治疗开发的进展。

任务6：溶解性预测定义：此二元分类任务分析给定的蛋白质序列，预测蛋白质是否可溶。生物学重要性：该预测在生物化学和药理学中至关重要，因为溶解性影响蛋白质的表达、纯化及治疗效果。该任务要求准确评估蛋白质序列以预测其溶解状态，促进对其功能和治疗潜力的进一步研究。

任务7：基因功能预测定义：此任务为分类问题，每个输入蛋白质x与一个标签y相关联，标签包括：转录调控、尾部、其他、moron、辅助代谢基因和宿主接管、裂解、整合与切除、头部和包装、连接器、DNA、RNA和核苷酸代谢。生物学重要性：稳定蛋白质的创建在如药物递送等应用中尤为重要，确保药物在到达靶点前保持完整。更广泛地讲，筛选大量蛋白质数据以定位和优化最佳候选者可以显著提高昂贵蛋白质工程实验的效率和产出。

任务8：二级结构预测定义：预测蛋白质二级结构是将序列中的每个氨基酸归类为三种可能的类别之一：螺旋、链或其他。生物学重要性：了解蛋白质的二级结构对于确定其功能至关重要，尤其是在研究的蛋白质与已知结构的蛋白质没有进化相似性时。二级结构预测工具广泛用于为更复杂的建模任务生成详细的输入特征。

使用手册

为了帮助研究人员有效使用ProtHyena，我们提供了预训练权重以及适用于各种任务的微调权重。我们还提供了在特定任务上微调模型的详细说明，以及组织新下游数据集以支持进一步微调的指导。为方便起见，我们提供了一个Colab笔记本，用户无需设置本地环境即可在不同的下游任务中进行推理。该笔记本会直接从Hugging Face加载微调后的模型。研究人员只需选择所需的模型，设置解码器类型和类别数量（对于回归任务，类别数量为1），并输入蛋白质序列进行分析。更多详细信息可以在我们的GitHub仓库中找到：https://github.com/ZHymLumine/ProtHyena。

代码和数据可用性

本研究中用于复现结果的代码可在以下网址获取：https://github.com/ZHymLumine/ProtHyena。补充材料（文本、图、表、中文翻译版本或视频）也可从线上（http://www.imeta.science/imetaomics）上找到。

引文格式：

Yiming Zhang, Bian Bian, Manabu Okumura. 2024. “Hyena Architecture Enables Fast and Efficient Protein Language Modeling.” iMeta 2: e45. https://doi.org/10.1002/imo2.45.

作者简介

张一鸣（第一作者）

● 东京科学大学工学院在读本科生。

● 研究方向为自然语言处理在生命科学的应用。蛋白质、基因组语言模型，蛋白质-小分子相互作用。

奥村学（通讯作者）

● 东京科学大学工学院教授，博士生导师。

● 研究方向为自然语言处理技术及其应用系统的开发，涵盖增量式语言理解模型（稳健的语义与篇章处理）、自动文本摘要技术、为残障人士开发交流辅助技术，以及基于自然语言理解的动画控制。在自然语言处理与智能辅助技术领域展开深入研究，推动多项关键技术的发展。

iMetaOmics

● iMeta姊妹刊iMetaOmics编委招募 (定位IF>10) (2024.3.2)

● iMeta姊妹刊iMetaOmics电子版和印刷版ISSN申请获批(2024.4.1)

● iMeta姊妹刊iMetaOmics投稿系统正式上线(2024.4.17)

● iMeta姊妹刊iMetaOmics主编正式官宣(2024.4.22)

● 出版社iMetaOmics主页正式上线！(2024.4.28)

● iMetaOmics | 浙江大学宗鑫组揭示两猪种宿主-肠道菌群互作差异

● iMetaOmics | 罗鹏/袁硕峰/苗凯/程全发表STAGER: 生成式人工智能可靠性的标准化测试和评估推荐

● iMetaOmics | 徐州医科大杨欢组揭秘沙门氏菌-宿主-微生物群在免疫与代谢中的相互作

● iMetaOmics | 中科院动物所金坚石组综述16S rRNA基因扩增子测序技术的“前世今生”

● iMetaOmics | 浙大张天真组完成二倍体棉种泛基因组构建

● iMetaOmics | 张勇/李福平-先进糖蛋白组学在男性生殖研究中的潜在应用

● iMetaOmics | 暨南大学潘永勤/杨华组-炎症蛋白联合检测利于诊断甲状腺乳头状癌和结节性甲状腺肿

● iMetaOmics | 张开春组利用多组学方法揭示甜樱桃加倍后果色变化的候选基因

● iMetaOmics | 杜娟/林婷婷-慢性泪囊炎患者眼部菌群类型和纵向菌群变化

● iMetaOmics | 陈汉清/陈俊综述有关肝细胞癌治疗的新兴纳米医学策略

● iMetaOmics | 基因组所刘永鑫/卢洪评述微生物在提高杂种优势中的作用

● iMetaOmics | 上科大刘雪松组开发基于通路的肿瘤细胞鉴别工具TCfinder

● iMetaOmics | 中山大学刘鹏/邹宇田-整合人工智能实现HER2阳性乳腺癌精准管理

● iMetaOmics | 安徽农大李晓玉组-丛枝菌根真菌对玉米内生菌群的影响

● iMetaOmics | 徐涛/黄蓉/苏国海-急性冠脉综合征纵向多组学队列建设

● iMetaOmics | 通过整合宏组学促进人类与环境健康发展

● iMetaOmics | 苏州大学林俊组-揭示活性微生物及益生元/益生菌与关节炎联系

● iMetaOmics | 中国药科大学徐文波开发叶绿体基因组数据分析软件

● iMetaOmics | 清华刘晓组和复旦王久存组揭示特定细菌在皮肤老化中的作用

●iMetaOmics | 中南大学夏晓波团队揭示青光眼和SLE发病机制新关联

●iMetaOmics | 庐山植物园刘芬组揭示了自噬在植物-根微生物互作机制中的调控作用

●iMetaOmics | 杨瑞馥/袁静综述微生物组与“同一健康”的联系

●iMetaOmics | 同济/上海交大-开发支持群体分组分析的宏基因组测序综合分析软件

●iMetaOmics | 陈绍鸣-关于靶向NF-κB的潜伏逆转剂及其在HIV潜伏期的表观遗传和突变影响的评论

● iMetaOmics | 甘肃农大刘自刚组-强抗寒甘蓝型冬油菜的基因组组装和基因组特征解析

● iMetaOmics | 南京农大朱伟云组-外周血清素在结肠稳态中的作用

● iMetaOmics | 魏来/贾慧珏/何明光-多组学助力揭示塑造转录组的基因型-微生物组相互作用

● iMetaOmics | 徐州医科大学朱作斌组-微生物对寿命的调节：机制和治疗策略

● iMetaOmics | 白立景/邢凯组-解析脊椎动物肠道微生物多样性的影响因素

● iMetaOmics | 刘永鑫/陈同-用于食物微生物组成和时间序列研究的微生物组数据库FoodMicroDB

● iMetaOmics | 重庆大学王贵学组-肠道微生物细胞外囊泡在神经退行性疾病中的新作用及其治疗策略

● iMetaOmics | 四川大学王红宁组-解析产气荚膜梭菌的基因组宿主适应性

● iMetaOmics | 北京协和医院杨启文组-ramR基因突变增强免疫激活和依拉环素耐药性

● iMetaOmics | 香港中文苏奇组-抗菌多肽开发中的见解: 一个多学科视角的观察

● iMetaOmics | 上科大刘雪松组开发CD4 TCR特异性预测工具Pep2TCR

● iMetaOmics | 江苏省农科院植物细菌团队-解析中国梨火疫菌特征及溯源分析

● iMetaOmics | 基因组所刘永鑫组-易扩增子(EasyAmplicon)：用户友好的扩增子测序数据分析指南

更多推荐

（▼ 点击跳转）

高引文章 ▸▸▸▸

iMeta | 引用15000+，海普洛斯陈实富发布新版fastp，更快更好地处理FASTQ数据

高引文章 ▸▸▸▸

iMeta | 兰大张东组：使用PhyloSuite进行分子系统发育及系统发育树的统计分析

高引文章▸▸▸▸

iMeta | 唐海宝/张兴坦-用于比较基因组学分析的多功能分析套件JCVI

1卷1期

1卷2期

1卷3期

1卷4期

2卷1期

2卷2期

2卷3期

2卷4期

3卷1期

3卷2期

3卷3期

3卷4期

3卷5期

1卷1期

1卷2期

期刊简介

“iMeta” 是由威立、宏科学和本领域数千名华人科学家合作出版的开放获取期刊，主编由中科院微生物所刘双江研究员和荷兰格罗宁根大学傅静远教授担任。目的是发表所有领域高影响力的研究、方法和综述，重点关注微生物组、生物信息、大数据和多组学等前沿交叉学科。目标是发表前10%(IF > 20)的高影响力论文。期刊特色包括中英双语图文、双语视频、可重复分析、图片打磨、60万用户的社交媒体宣传等。2022年2月正式创刊！相继被Google Scholar、PubMed、SCIE、ESI、DOAJ、Scopus等数据库收录！2024年6月获得首个影响因子23.8，位列全球SCI期刊前千分之五(107/21848)，微生物学科2/161，仅低于Nature Reviews，学科研究类期刊全球第一，中国大陆11/514！

“iMetaOmics” 是“iMeta” 子刊，主编由中国科学院北京生命科学研究院赵方庆研究员和香港中文大学于君教授担任，是定位IF>10的高水平综合期刊，欢迎投稿！

iMeta主页：

http://www.imeta.science

姊妹刊iMetaOmics主页：

http://www.imeta.science/imetaomics/

出版社iMeta主页：

https://onlinelibrary.wiley.com/journal/2770596x

出版社iMetaOmics主页：

https://onlinelibrary.wiley.com/journal/29969514

iMeta投稿：

https://wiley.atyponrex.com/journal/IMT2

iMetaOmics投稿：

https://wiley.atyponrex.com/journal/IMO2

邮箱：

office@imeta.science

宏基因组

宏基因组/微生物组是当今世界科研最热门的研究领域之一，为加强本领域的技术交流与传播，推动中国微生物组计划发展，中科院青年科研人员创立“宏基因组”公众号，目标为打造本领域纯干货技术及思想交流平台。