融合 Mamba 与 Transformer｜MaskMamba 引领非自回归图像合成,推理速度提升 54.44% !

科技 2024-10-31 22:01 广东

↑ 点击蓝字关注极市平台

作者丨AI视界引擎

来源丨AI视界引擎

编辑丨极市平台

极市导读

本文介绍了一种名为MaskMamba的新型混合模型，它融合了Mamba和Transformer架构，通过Masked Image Modeling实现非自回归图像合成，显著提升了推理速度并提高了生成质量。MaskMamba在2048x2048分辨率下的推理速度提升了54.44%，同时在条件生成和文本生成任务中展现出优越的性能。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

图像生成模型遇到了与可扩展性和二次复杂性相关的挑战，主要原因是依赖于基于Transformer的 Backbone 网络。

在本研究中，作者引入了一种新颖的混合模型MaskMamba，它结合了Mambo和Transformer架构，使用Masked Image Modeling进行非自回归图像合成。

作者仔细重新设计了双向Mamba架构，通过实现两个关键的修改：
（1）用标准卷积替换因果卷积，以更好地捕捉全局上下文；
（2）用 ConCat 而不是乘法，这显著提高了性能，同时加快了推理速度。此外，作者还探索了MaskMamba的各种混合方案，包括串行和分组并行排列。

此外，作者引入了一个在语境中的条件，使得作者的模型可以执行分类到图像和文本到图像生成任务。MaskMamba 在生成质量上超过了基于Mamba和Transformer的模型。值得注意的是，它实现了在2048x2048分辨率下推理速度的54.44%的显著提升。

1 Introduction

近年来，计算机视觉领域生成图像模型的研究取得了显著进展，特别是在类别到图像；Sun等人（2024）；Sauer等人（2022））和文本到图像任务。传统的自回归生成模型，如VQGAN ，在条件生成方面表现出色。在文本条件生成领域，模型如Parti（Yu等人和 DALL-E 使用图像分词器和附加的 MLP 将图像转换为离散 Token ，并将编码的文本特征通过另一个MLP（Chen等人（2023））投射到描述嵌入中，以自回归方式在训练和推理中进行。

同时，非自回归方法，包括MAGE（Li等人（2023）和MUSE（Chang等人（2023））），利用Masked Image Modeling，在训练期间将图像转换为离散 Token ，并随机预测被遮挡的 Token 。

另一种在图像生成中具有突出地位的方法是扩散模型，例如LDM（Rombach et al. (2022)）带有UNet Backbone 网络。尽管这些模型展示了很高的生成质量，但它们的卷积神经网络架构给可扩展性带来了限制。

为了解决这个问题，基于Transformer的生成模型，如DiT（Peebles和Xie (2023)），通过注意力机制显著增强了全局建模能力，同时显著提高了生成质量。然而，注意力机制的计算复杂性随序列长度呈平方关系增加，这限制了训练和推理效率。

Mamba (Gu和Dao (2023)) 提出了一个状态空间模型（Gu等人（2022，2021）），其具有线性时间复杂度，在处理长序列任务方面具有显著优势。当前的图像生成努力，包括 DiM 和 diffuSSM，主要用 Mamba 模块替代了原始的 Transformer 模块。这些模型在提高效率和可扩展性方面都有所提升。

然而，基于扩散模型的图像生成通常需要数百次迭代，这可能非常耗时。

为了消除Transformer模型中序列长度带来的二次复杂度增长和自动回归模型中生成迭代过多的问题，作者提出了MaskMamba，它整合了Mamba和Transformer架构，并利用非自回归式遮挡图像建模（Ni等人（2024）；Lezama等人（2022））进行图像合成。作者精心重新设计了Bi-Mamba（Mo和Tian（2024）；Zhu等人（2024）），通过用标准卷积替换因果卷积，使其适用于遮挡图像生成。

同时，在Bi-Mamba的最后阶段，作者选择连接而非乘法来降低计算复杂度，与Bi-Mamba（Zhu等人（2024））相比，显著提高了推理速度，提高了17.77%。

作者进一步研究了各种MaskMamba混合方案，包括串行和分组并行方案（Shaker等人，2024年）。在串行方案中，作者探索了层与层交替的安排，以及将Transformer放在最后层。对于分组并行方案，作者评估了将模型沿着通道维度分为两组或四组的影响。

作者的发现表明，将Transformer放在最后层可以显著提高模型捕捉全局上下文的能力。

此外，作者实现了一个在语境中的条件，使得作者的模型可以在单个框架中同时执行从类别到图像的生成和从文本到图像的生成任务，如图1所示。

同时，作者研究了条件嵌入（Zhu等人，2024年）的放置位置，包括输入序列的不同位置，包括 Head 、中部和尾部。结果表明，将条件嵌入放在中部可以获得最佳性能。

在实验部分，作者通过两个不同的任务来验证MaskMamba的生成能力：条件生成和文本生成，每个任务使用各种大小的模型。对于条件生成到图像的任务，作者在ImageNet1k（Deng等人（2009））数据集上训练300个周期，将作者的MaskMamba与类似大小的基于Transformer和Mamba的模型进行比较。结果表明，在生成质量和推理速度方面，作者的MaskMamba都优于这两个对照组。此外，作者在CC3M（Sharma等人（2018））数据集上进行训练和评估，在CC3M和MS-COCO（Lin等人（2014））验证数据集上取得了优越的性能。

总结起来，作者的贡献包括：

作者重新设计了Bi-Mamba，通过用标准卷积代替因果卷积来提高其对遮挡图像生成任务适用性。此外，在最后阶段用 ConCat 代替乘法，从而显著提高了性能并比Bi-Mamba快了17.77%的推理速度。
作者提出了MaskMamba，这是一个统一的生成模型，它集成了重新设计的Bi-Mamba和Transformer层，使得通过在语境中的条件，可以在同一模型中执行类到图像和文本到图像的生成任务。
作者的MaskMamba模型在ImageNet1k和CC3M数据集上，无论是在生成质量还是推理速度方面，都超过了基于Transformer和基于Mamba的模型。

相关工作图像生成。图像生成的领域正在当前研究中取得重大进展。最初的自动回归图像生成模型，如 VQGAN（Esser等人（2021））和LlamaGen（Sun等人（2024）），证明了通过将图像转换为离散 Token 并应用自动回归模型生成图像 Token ，可以生成高保真图像的潜力。文本到图像生成模型的出现，如Parti；2022）和 DALL-E（Ramesh等人（2021）），进一步推动了这一领域的进展。然而，这些模型在生成过程中存在特定效率问题。为了解决这些问题，非自动回归生成模型如MaskGIT、MAGE 和 MUSE（Chang等人（2023））通过 Mask 图像建模提高了生成效率。同时，扩散模型；Song等人（2020）；Ho等人（2020）；Dhariwal和Nichol；Saharia等人（2022），如LDM（Rombach等人（2022）），在生成质量方面尽管受到与卷积神经网络基础架构相关的可伸缩性限制，但在生成质量上表现出色。为克服这些限制，Transformer基生成模型，包括DiT（Peebles和Xie（2023）），通过引入注意力机制提高了全局建模能力。然而，当处理大量序列时，这些模型仍面临着计算复杂性随平方增加的挑战。

Mamba Vision。Transformer 作为一种领先的网络架构，在各种任务中得到了广泛应用。然而，其平方的计算复杂度为长序列任务的有效处理带来了巨大障碍。在最近的发展中，一种新的状态-空间模型（Gu等人，2021年；Gu和Dao，2023年；Dao和Gu，2024年）——被称为Mamba（Gu和Dao，2023年；Dao和Gu，2024年），在处理长序列任务方面展现出巨大的潜力，并在研究社区中引起了广泛关注。Mamba架构已经有效地替代了传统的Transformer框架，在多个领域取得了显著的成果。Mamba 家族涵盖了广泛的应用，包括文本生成、物体识别、3D点云处理、推荐系统以及图像生成，并有许多基于如Vision-Mamba 、U-Mamba 和Rec-Mamba 等框架的实现。Vision-Mamba采用双向状态-空间模型结构，并与混合 Transformer 相结合。

然而，Mamba在非自回归图像生成方面的应用尚未得到探索。目前，大多数基于Mamba的生成任务遵循扩散模型范式，这涉及到训练和推理次数的复杂性。

为了解决这些挑战，作者设计了一种新颖的混合Mamba结构，旨在将Mamba应用于非自回归图像生成任务，并将其与Masked Image Modeling（He等人，2022年）相结合，用于训练和推理，从而提高这些过程的效率。

3 Method

MaskMamba Model: Overview

如图2所示, 作者的MaskMamba核心包括三个部分。首先, 将图像像素通过图像分词器（Yu等人（2021）；Van Den Oord等人（2017）；Esser等人（2021））量化为离散的 Token , 其中表示图像分词器的下采样比。这些离散 Token 作为图像词表的索引。然后，作者随机选择 Mask 比例（范围为 0.55 至 1.0），并从 Token 中进行 Mask，用可学习的 Mask Token 替换它们。其次, 作者将类别ID转换为可学习的标签嵌入（Peebles和Xie（2023）；Esser等人（2021）》，表示为。另一方面，关于文本条件，作者首先使用T5-Large Encoder （Colin（2020））提取特征，然后将提取的特征映射到描述嵌入（Chen等人（2023）》，表示为。

最后, 作者将条件嵌入与图像 Token Embedding 在中部拼接, 其中表示或 , 并添加位置嵌入到这些 , cond, 。训练目标是利用交叉嫡损失（Zhang & Sabuncu (2018））预测被 Mask 区域的 Token 索引。

模型配置作者提出两种图像生成模型：条件分类模型和条件文本模型。遵循先前的研究工作（Radford等人（2019）；Touvron等人（2023）的标准），作者遵循Mamba的标准配置。如Tab.1所示，作者提供了三种条件分类模型的不同版本，参数大小从103M到741M不等。生成的图像分辨率为256x256，经过16倍下采样因子后，图像 Token Embedding 的长度设置为256。类别条件嵌入的长度设置为1，文本条件嵌入的长度N设置为120。

MaskMamba Model: Architecture

3.2.1 Bi-Mamba-V2 Layer.

卷积替换。 如图3(c)所示，作者将原始的Bi-Mamba（朱等，2024年）架构进行了重新设计，以便更好地适应与遮挡图像生成相关的任务。作者将原始的因果卷积替换为标准卷积。由于遮挡图像生成的非自回归性质，因果卷积只允许单向的 Token 混合，这限制了非自回归图像生成的潜力。相反，标准卷积使 Token 可以在输入序列中的所有位置双向互动，有效地捕获全局上下文。

对称SSM分枝设计

作者将对称SSM分枝引入, 以更好地适应 Mask 图像生成。在对称分枝中, 作者在Backward SSM之前先将输入翻转, 然后在其之后再翻转, 将其与Forward SSM的结果合并。此外, 与 Bi-Mamba右侧分枝相比，作者使用额外的卷积层来减少特征损失。为了充分利用所有分枝的优势, 作者将输入映射到大小为的特征空间, 从而确保最终拼接维数一致。作者的输出可以表示为 , 其计算使用以下公式1。

3.2.2 Maskmaba Hybrid Scheme.

群体方案设计。如图4（a）和图4（b）所示，作者设计了两组群体混合方案。在群体方案v1中，作者将输入数据沿通道维度分为两组，然后分别由作者的Bi-Mamba-v2层和Transformer层处理。接下来，作者将处理结果沿通道维度进行 ConCat ，并最终输入到Norm和Project层。在群体方案v2中，作者将输入数据沿通道维度分为四组。其中两组由作者的Bi-Mamba-v2层在前向和后向SSM中处理，而另外两组由Transformer层处理。

串行方案设计。如图4(c)和图4(d)所示，作者还设计了两种串行混合方案。在串行方案v1中，作者依次层叠地排列作者的Bi-Mamba-v2和Transformer。在串行方案v2中，作者将Bi-Mamba-v2放在前层，将Transformer放在后层。由于Transformer的注意力机制可以更好地增强特征表示，作者在所有串行模式中，将Transformer层放在Mamba层之后。

Image Generation By MaskLambda

作者利用 Mask 图像生成（Li等人（2023）；Chang等人（2022））方法进行图像合成。对于生成分辨率为256×256，下采样因子为16的情况下，在正向传播过程中，作者首先初始化256个 Mask Token 。然后，作者将条件嵌入与中间位置的 Mask Token 连接。受到MUSE（Chang等人（2023））迭代生成方法的启发，作者的解码过程也采用余弦计划（Chang等人（2022）），在每一步选择最高置信度的 Mask Token 进行预测。这些 Token 随后被设置为无 Mask ，剩余步骤中的 Mask Token 集合相应减少。通过这种方法，作者可以在20个解码步骤中推理256个 Token ，而自动回归方法（Touvron等人（2023）；Sun等人（2024））需要256个步骤。

条件图像生成。 类别标签嵌入基于每个类别的索引。这些类别标签嵌入与 Mask Token ConCat ，MaskMamba通过余弦进度表逐渐预测这些 Mask Token 。

文本条件图像生成。 首先，作者使用Colin（2020）的T5-Large Encoder提取文本特征，然后将这些特征转换为描述符嵌入。与标签嵌入类似，作者将提取的描述符嵌入与 Mask Token Embedding ConCat 。MaskMamba通过余弦时间表逐渐预测这些 Mask Token 。

无分类引导图像生成 扩散模型（Ho 和 Salimans，2022年）提出的无分类引导（CFG）方法是一种非常有效的技术，可增强模型在处理文本和图像特征时的条件生成能力。因此，作者将这种方法应用到作者的模型中。在训练阶段，为了模拟无条件图像生成的过程，作者以0.1的概率随机删除条件嵌入。在推理阶段, 每个 Token 的logit 由以下方程确定:, 其中是无条件 logit, 是条件 logit, 是CFG的缩放。

4 Experimental Results

Class-conditional Image Generation

训练设置所有类到图像生成模型都在ImageNet数据集上训练300个epoch，所有模型的训练参数设置保持一致。具体而言，基本学习率设置为每256个批次大小为1e-4，全局批量大小为1024。此外，作者使用AdamW优化器，其中β1 = 0.9，β2 = 0.95。正则化率保持一致，包括在特定条件下。在训练期间， Mask 率从0.5变化到1。所有模型和推理都将在具有32GB内存的V100 GPU上进行训练和推理。

评估指标作者使用FID-50K（Heusel等人（2017））作为主要的评估指标，同时采用Inception Score（Salimans等人（2016））（IS）和Inception Score标准差（IS-std）作为评估标准。在ImageNet验证数据集上，作者根据CFG生成50,000张图像，并使用上述指标对所有模型进行评估。

4.1.1 Qualitative Results

与其他图像生成方法的比较 如图2所示，作者将MaskMamba模型与流行的图像生成模型进行了比较，包括自回归（AR）方法（Esser等人（2021）；Sun等人（2024））、 Mask 预测模型（Mask）(Li等人（2023）；Chang等人（2022）)和基于Transformer的模型（Masked Image Modeling训练使用相同的超参数），重点关注它们的基础网络差异。MaskMamba使用串行方案v2模式。在不同模型大小的比较中，MaskMamba表现出竞争力的性能。如图5所示，作者从MaskMamba-XL模型中随机选择的图像仅在ImageNet上训练即可获得高质量的结果。

4.1.2 Experiment Analysis

无类别指导(CFG)和生成迭代的影响。 图6(a)显示了在图像生成中，当CFG设置为3时，随着迭代次数的增加，FID和IS变化。模型在25迭代时达到最佳性能，进一步增加迭代次数将降低FID。图6(b)显示了不同CFG设置下的FID和IS分数，表明无类别指导可以提高视觉质量，而当CFG=3时，模型达到最佳性能。

有效性分析 作者进行了一系列实验来评估作者重新设计的Bi-Mamba-v2层、原始Bi-Mamba层和Transformer层的有效性。为了评估在更高分辨率图像上的推理实验，作者主要关注单层推理速度和内存使用。所有关于效率分析的实验都是在A100 40G设备上进行的，并且作者比较了这些模型在不同分辨率下的推理速度, 如图7所示。结果表明, 当分辨率小于时, 作者的Bi-Mamba-v2层和原始Bi-Mamba层比Transformer层稍慢。然而, 当分辨率超过时，作者的Bi-Mamba-v2层比Transformer层和原始Bi-Mamba层都要快。值得注意的是, 在的分辨率下, 作者的Bi-Mamba-v2层比Transformer层快1.5倍。作者还比较了不同批处理大小的GPU内存使用情况。

作者的Bi-Mamba-v2层的内存使用与Bi-Mamba层的内存使用相当，而Transformer层由于其二次复杂度，随着批处理大小的增加，内存使用呈指数增长。当批处理大小达到6时，Transformer层消耗了63GB的GPU内存，导致内存不足，而作者的Bi-Mamba-v2层只需要38GB。这些实验结果表明，作者的Bi-Mamba-v2层可以在更快的速度下生成图像，并且内存使用更低。

不同混合方案的影响. 如图3所示，作者对MaskMamba在各种混合配置下的图像生成结果进行了比较分析，这些混合配置分为两类：并行和串行。如图4所示，在分组并行配置中，作者研究将模型分为两组和四组的效果。在分层串行配置中，作者设计了一种交错结构，包括Bi-Mamba-v2和Transformer {MSMS...MSMS}，以及另一种配置{MMMM...SSSS}，其中前层是Mamba，后层是Transformer。这些实验的结果揭示了不同混合配置的性能和效率。

不同 Backbone 的影响。 作者在不同的 Backbone 上进行了消融实验：VisionMamba (Zhu等人，2024年)提出的Bi-Mamba，重新设计的 Bi-Mamba-V2 ，以及Transformer (Vaswani，2017年)。Bi-Mamba-L只使用原始的Bi-Mamba作为层，而 Bi-Mamba-V2 使用作者重新设计的Bi-Mamba-v2。Transformer只使用Transformer架构。在(Bi-Mamba + Transformer)-L中，前层是原始的Bi-Mamba，然后是层的Transformer。在(Bi-Mamba-V2 + Transformer)-L中，前层是Bi-Mamba-v2，然后是层的Transformer。

结果表明，作者重新设计的Bi-Mamba-v2在原始Bi-Mamba之上提高了性能，将Mamba和Transformer结合进一步提高了结果。因此，作者选择(Bi-Mamba-V2 + Transformer)用于MaskMamba。

不同条件嵌入位置的影响。作者进行消融实验来评估条件嵌入cond的放置对模型性能的影响。具体而言，作者研究了条件嵌入在序列的 Head 、中间和尾部的不同位置的组合效果。实验结果表明，当条件嵌入置于中间位置时，性能最优。这一结果主要归因于选择性扫描的机制。由于作者随机遮挡图像 Token 的一部分，将条件嵌入置于 Head 或尾部会导致由于注意力距离增加而无法提供足够的监督信息进行条件生成控制。

Text-conditional Image Generation

训练设置

与分类训练策略类似，作者为文本数据采用一种遮挡生成非自回归训练策略。在Sharma等人（2018年）的CC3M（256×256）数据集上训练模型30个周期。训练参数与之前的实验保持一致，基本学习率设置为每256个批次的1e-4，全局批处理大小为1024。此外，作者使用AdamW优化器，其中β1 = 0.9，β2 = 0.95。

基于CC3M的模型训练。如表6所示，作者在CC3M和MS-COCO的验证集上比较了Transformer-XL和作者的MaskMamba-XL在文本到图像生成的性能，评估了FID和IS。作者的结果始终优于基于Transformer的模型。如图8所示，作者使用CC3M中的文本作为 Prompt 来生成图像。MaskMamba-XL能够生成高质量的图像。然而，由于训练数据的有限性和CC3M数据集中文本描述的精度不精确，一些生成的图像存在局限性。

5 Conclusion.

在本工作中，作者提出了一种新颖的混合模型 MaskMamba，该模型结合了Mamba 和 Transformer 架构，利用 Masked Image Modeling进行非自回归图像合成。

作者不仅重新设计了一种新的Bi-Mamba结构，使其更适合图像生成，而且还研究了不同的模型混合策略和条件嵌入的放置，最终确定了最佳设置。

此外，作者在一个包含上下文的条件下，提供了一系列类别条件图像生成模型和文本条件图像生成模型。

作者的实验结果表明，在生成质量和推理速度方面，作者的MaskMamba模型超过了基于Transformer和基于Mamba的模型。

作者希望Masked Image Modeling for non-autoregressive image synthesis在MaskMamba中的应用可以激发对Mamba图像生成任务进行进一步探索。

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏：多模态大模型超详细解读专栏｜搞懂Tranformer系列｜大视觉模型 (LVM) 解读｜扩散模型系列｜极市直播

技术综述：小目标检测那点事｜大模型面试八股含答案｜万字长文！人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

极市平台

为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

Windows + VSCode 配置 OpenCV C++ 一站式开发调试环境教程

我为什么离开OpenAI？六年元老发离职长文：AGI将至，我们远没准备好

Pattern Recognition｜同时关注局部和全局信息，利用注意力抓取不同粒度的视觉信息来描述图片

NeurIPS 2024｜RoPINN: 局域优化的物理信息神经网络，PINN的新训练范式

无人车大战打响！美国萝卜日爆8000单破纪录，中美对决已到关键转折点

「黑神话」级3A大作AI实时游戏生成！港科大、中科大等祭出最强扩散Transformer-GameGen-X

NeurIPS 2024｜观物取象，穷理尽性：从视觉观测中推理物理运动规律

vLLM这一年的新特性以及后续规划（总结版!）

中国断臂女子，拿到了这场「赛博奥运会』的冠军！人机共生的时代已来

精英齐聚芜湖，大赛成果分享｜邀您参加2024长三角（芜湖）算力算法创新应用大赛颁奖典礼！

复旦提出 CTA-Net：卷积与Transformer的协同，通过轻量级多尺度特征融合提升视觉识别！

NeurIPS 2024｜浙大、微信提出精确反演采样器新范式，彻底解决扩散模型反演问题

90后上海女生，成美国数学大奖首位女性华人得主！获评委陶哲轩盛赞

finetune后的模型参数，还可以继续怎么玩？

ECCV'24｜SAM4MLLM：结合多模态大型语言模型和SAM实现高精度引用表达分割

CPU也能跑模型：OpenVINO模型部署入门教程

震撼预警：满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

TPAMI 2024｜解耦图神经网络：同时训练多个简单的GNN而不是一个

ECCV 2024｜谷歌提出LookupViT：全新通用视觉Transformer块

只要两张3090就可复现！Vision Search Assistant开源：VLM与Web搜索能力的巧妙结合

谷歌员工集体打脸劈柴，25%新代码AI生成夸大事实！Linux之父怒斥90%都是营销

NeurIPS 2024｜浙大/微信/清华提出：彻底解决扩散模型反演问题

无需昂贵标注！大幅提升SDXL和SD3-Medium效果！文生图偏好优化新宠来了

实践教程｜CUDA C++编程指北-编程接口与硬件实现

刚刚，阿里全球数学竞赛决赛结果公布，姜萍违反预选赛规则未获奖

从0开始用 PyTorch 构建完整的 NeRF

NeurIPS 2024｜自监督湍流分析，减少99%标注数据需求

边缘检测算法综合指南

谷歌Agent首次发现真实世界代码漏洞！抢救全球数亿设备，或挽回数十亿美元损失？

100+深度学习各方向数据集资源大盘点

CLIPFit：不绕弯子，直接微调比提示微调和适配器微调更好｜EMNLP'24

NeurIPS 2024｜机器人操纵世界模型来了，成功率超过谷歌RT-1 26.6%

谷歌被俄罗斯罚款2,500,000,000,000,000,000,000,000,000,000,000,000美元

融合 Mamba 与 Transformer｜MaskMamba 引领非自回归图像合成,推理速度提升 54.44% !

NeurIPS2024｜提高专业生产力，让你的AI画作布局可控，360 AI Research开源新模型HiCo

如何优雅地测量GPU CUDA Kernel耗时？

全球最大AI超算内部首次曝光！马斯克19天神速组装10万块H100，未来规模还将扩大一倍

一文看完多模态：从视觉表征到多模态大模型

NeurIPS 2024｜字节联合华师提出统一的多模态文字理解与生成大模型

零基础万字长文实践diffusion模型

AI「长脑子」了？LLM惊现「人类脑叶」结构并有数学代码分区，MIT大牛新作震惊学界！

超越YOLOv10/11、RT-DETRv2/3！中科大D-FINE重新定义边界框回归任务

NeurlPS 2024 Oral｜多模态融合检测端到端算法E2E-MFD来了！

三种Transformer模型中的注意力机制介绍及Pytorch实现：从自注意力到因果自注意力

Grok图像理解功能上线，单挑ChatGPT结果惊人！无地标照片秒定位，18世纪手稿一眼识别

ECCV 2024｜SegVG：刷新视觉定位新SOTA！将视觉定位的目标边界框转化为分割信号

NeurIPS 2024｜TextHarmony: 基于统一架构的视觉文本理解与生成模型

全面解读高效Segment Anything模型变体：各种图像分割加速策略和核心技术展示

陶哲轩神预言！Transformer破解百年三体难题，凭数学直觉找到李雅普诺夫函数

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉