码住，热门创新点！TNT模型：Transformer in Transformer！你值得拥有！

文摘 2025-01-15 11:47 安徽

【TNT】（Transformer in Transformer）是近年来在深度学习领域中备受关注的一种新兴架构，它通过将Transformer嵌入到另一个Transformer中，从而有效捕捉局部和全局特征，显著提升了模型在图像处理和自然语言处理等任务中的表现。TNT技术在计算机视觉、文本生成和机器翻译等多个领域展示了其潜力和有效性，其创新的方法和卓越的表现使其成为研究热点之一。

为了帮助大家全面掌握TNT的方法并寻找创新点，本文总结了最近两年【TNT】相关的10篇最新论文的研究成果，这些论文的文章、来源以及论文的代码都整理好了，希望能为各位的研究工作提供有价值的参考。

需要的同学扫码添加我

回复“TNT10”即可全部领取

1、Transformer in Transformer

-这篇文章提出了一种新型的神经网络架构，名为Transformer in Transformer（TNT），旨在提升视觉识别任务的性能。文章首先指出了现有视觉Transformer模型在处理自然图像时存在的局限性，尤其是对于不同尺寸和位置的物体特征，现有模型的局部区域划分粒度不够细致。为了解决这个问题，文章提出了TNT架构，通过在局部块内部进一步应用注意力机制来增强特征表示能力。

-具体来说，TNT模型将输入图像划分为多个局部块（称为"视觉句子"），然后每个局部块再次细分为更小的子块（称为"视觉词"）。模型通过独立计算每个视觉词内部的注意力关系，以极低的计算成本实现对细节的深入挖掘。此外，通过聚合单词和句子级别的特征，TNT能够生成更丰富的表示能力。

-文章通过在ImageNet等多个基准测试上的实验验证了TNT架构的有效性。例如，在ImageNet上，TNT达到了81.5%的top-1准确率，比具有相似计算成本的最先进视觉Transformer模型高出约1.7%。此外，文章还提供了PyTorch和MindSpore的代码实现，供研究者使用和参考。

-在介绍TNT架构时，文章详细阐述了其组成部分，包括多头自注意力（MSA）、多层感知器（MLP）和层归一化（LN），并对这些组成部分在TNT中的运用进行了细致的解释。TNT架构中的内外两个Transformer块协同工作，内层Transformer块处理视觉词之间的关系，而外层Transformer块则处理视觉句子之间的关系。文章还对TNT的计算复杂度和参数复杂度进行了分析，证明了TNT在参数和计算量上的增加是微小的，但在性能上的提升是显著的。

-进一步地，文章探讨了TNT架构在不同视觉任务中的应用，包括图像分类、目标检测和语义分割等。在这些任务中，TNT均展现出了良好的泛化能力，证明了其作为视觉模型的潜力。此外，文章还进行了消融实验，分析了位置编码、注意力头数和视觉词数量等超参数对模型性能的影响。

-最后，文章通过可视化分析展示了TNT模型学习到的特征图和注意力图，进一步证明了TNT在捕捉局部细节和建立视觉词之间关系方面的优势。总体而言，这篇文章提出的TNT架构为视觉识别领域提供了一种新的、强大的模型选择，其创新之处在于对局部特征的深入挖掘和有效利用，为实现更高精度的视觉识别任务提供了可能。

2、Tree in Tree: from Decision Trees to Decision Graphs

-这篇文章介绍了一种新颖的决策图模型，名为Tree in Tree（TnT），它将传统的决策树扩展为更通用且功能更强大的有向无环图（DAG）。TnT模型通过递归地在内部节点或叶节点内生长决策树来构建决策图，而不是采用贪婪训练方法。与传统的决策树相比，TnT展现出更好的分类性能，并且模型尺寸更小，无论是作为独立的分类器还是作为集成方法中的基础估计器。

-文章首先指出了传统决策树（DTs）的优点，如轻量级和可解释性强，但也指出了它们的局限性，例如结构可能不是最优的，因为树的深度增加时，节点数量呈指数级增长，但根到叶的路径可能很短，限制了预测能力。此外，DTs的节点在不同路径上不共享，降低了模型的效率。

-为了解决这些问题，作者提出了TnT模型，它通过在内部节点和叶节点处递归地替换微型决策树来形成DAG结构。TnT的时间复杂度与图中的节点数成线性关系，能够处理大型数据集。文章的主要贡献包括提出了一种可扩展的算法来构建大型决策图，证明了该算法在相同模型复杂度约束下，无论是作为独立分类器还是集成中的基础估计器，都优于现有的决策树/图。与依赖预定义图/树结构的斜树不同，TnT能够从头开始学习图连接，提供了完全可解释的决策过程。

-在方法部分，文章详细描述了如何通过优化内部节点来构建决策图，TnT通过在任意内部节点处拟合新的决策树来最小化损失函数。文章还介绍了TnT的正则化技术，以限制模型复杂度并防止过拟合。此外，作者提供了TnT决策图的Python实现，并讨论了如何通过后剪枝过程进一步优化模型。

-在实验部分，作者将TnT作为独立分类器与其他几种先进的决策树/图算法进行了比较，包括CART、TAO和NDG。实验结果表明，TnT在多个数据集上一致地实现了更高的性能。此外，作者还将TnT集成到流行的集成方法中，如bagging和AdaBoost，并展示了TnT作为基础估计器的优势。

-文章还讨论了TnT的更广泛影响，指出TnT的核心思想（在节点内生长微型树）是通用的，并且与许多现有算法兼容，例如可以轻松地将线性组合（斜）分割纳入TnT框架中。作者还指出了TnT的局限性，包括训练速度比CART慢，以及由于TnT的非贪婪特性，训练时间较长。

-最后，文章总结了TnT决策图作为一种有效的替代传统决策树的方法，并指出了将树结构扩展为有向无环图的潜在好处，这可能激发未来其他新型树状结构模型的灵感。作者感谢了为本文提供反馈的个人和组织，并披露了研究资金来源。

需要的同学扫码添加我

回复“TNT10”即可全部领取

3、Towards Minimal Targeted Updates of Language Models with Targeted Negative Training

-这篇文章提出了一种创新的神经网络架构——Transformer in Transformer（TNT），旨在通过注意力机制对输入数据进行编码，形成强大的特征表示。文章指出，尽管现有的视觉Transformer通过将输入图像划分为局部区域块并计算它们之间的表示和关系，已经在图像识别等领域取得了进展，但对于自然图像中的不同尺寸和位置的物体特征，现有模型的区域划分粒度还不够细致。

-为了解决这一问题，文章探索了一种新的架构，将局部块视为“视觉句子”，并将它们进一步划分为更小的块作为“视觉词”。每个视觉词的注意力与其他词在给定的视觉句子内独立计算，计算成本可以忽略不计。通过这种方式，TNT模型能够以更细粒度提取视觉信息，并提供更详细的特征表示。

-文章详细介绍了TNT的工作原理，包括多头自注意力（MSA）、多层感知器（MLP）和层归一化（LN）等基本组件。TNT通过内外两层Transformer块协同工作，内层Transformer块用于模拟视觉词之间的关系，进行局部特征提取；外层Transformer块则用于处理视觉句子的序列信息。通过堆叠TNT块构建Transformer-in-Transformer网络，最终使用分类Token作为图像表示，并通过全连接层进行分类。

-在实验部分，文章展示了TNT在ImageNet等多个基准测试上的性能，证明了其有效性。例如，在ImageNet上，TNT达到了81.5%的top-1准确率，比具有相似计算成本的最先进视觉Transformer模型高出约1.7%。此外，文章还提供了PyTorch和MindSpore的代码实现，以供研究者使用和参考。

-文章还对TNT的计算复杂度和参数复杂度进行了分析，证明了TNT在计算和内存成本上只有微小的增加，却能有效地模拟局部结构信息，并在准确性和复杂度之间实现更好的权衡。作者构建了不同大小的TNT网络变体，并在表1中列出了它们的参数和浮点运算次数（FLOPs）。

-在消融研究中，文章探讨了位置编码、注意力头数和视觉词数量等超参数对模型性能的影响。结果表明，TNT在保留位置编码时表现最佳，且适当的注意力头数能够取得更好的性能。

-文章还通过可视化分析展示了TNT学习到的特征图和注意力图，进一步理解了所提方法的效果。特征图显示了TNT在保留局部信息方面的优势，而注意力图则展示了TNT在模拟视觉词之间关系方面的能力。

-最后，文章通过将TNT模型应用于下游任务，如图像分类、目标检测和语义分割等，证明了TNT的泛化能力。在这些任务中，TNT均展现出了优于或至少可与现有最先进模型相媲美的性能。

-文章的结论部分强调了TNT作为一种新型的视觉识别架构的有效性，并指出其在保留局部信息方面的优越性。作者还感谢了支持这项工作的资助机构。

需要的同学扫码添加我

回复“TNT10”即可全部领取

欢迎投稿

想要让高质量的内容更快地触达读者，降低他们寻找优质信息的成本吗？关键在于那些你尚未结识的人。他们可能掌握着你渴望了解的知识。【AI前沿速递】愿意成为这样的一座桥梁，连接不同领域、不同背景的学者，让他们的学术灵感相互碰撞，激发出无限可能。

【AI前沿速递】欢迎各高校实验室和个人在我们的平台上分享各类精彩内容，无论是最新的论文解读，还是对学术热点的深入分析，或是科研心得和竞赛经验的分享，我们的目标只有一个：让知识自由流动。

📝 投稿指南：

确保文章为个人原创，未在任何公开渠道发布。若文章已在其他平台发表或即将发表，请明确说明。
建议使用Markdown格式撰写稿件，并以附件形式发送清晰、无版权争议的配图。
【AI前沿速递】尊重作者的署名权，并为每篇被采纳的原创首发稿件提供具有市场竞争力的稿酬。稿酬将根据文章的阅读量和质量进行阶梯式结算。

📬 投稿方式：

您可以通过添加我们的小助理微信（aiqysd）进行快速投稿。请在添加时备注“投稿-姓名-学校-研究方向”

长按添加AI前沿速递小助理

AI前沿速递

持续分享最新AI前沿论文成果

最新文章

本地部署最强开源模型—DeepSeek-r1（保姆喂饭级教程）

2025 Kaggle 小白练习赛——使用保险数据集进行回归！

深度译读《DeepSeek FAQ》- 关于 DeepSeek 的答疑解惑

2025即插即用，Mamba线性注意力机制模块，持续起飞！

目前主流的attention方法都有哪些？

Tip 2024 | CGA特征融合模块，短短几行代码，有效提点，即插即用

TPAMI 2024 | 真的鲨疯啦！深度视觉学习诚不欺我！

AAAI 2024 | Conv-Former：卷积赋能，实现Transformer效果的即插即用模块！

【计算机视觉新突破】GLOMAP：重新定义全局结构光运动（SfM）的高效系统

如何评价大语言模型架构 TTT ？Transformer这次真的要没了？

NeurIPS | HiLo注意力机制：即插即用，精准捕获高低频特征

Flare7K++：解决夜间耀斑难题的综合数据集与流程

有小黑子说我家ViT在小数据集上不work，我真的忍不了了!

CVPR ｜只用一部分就好，别再傻乎乎的用普通卷积了！

博士招生 | 上海理工大学光学工程博士招生（优青教授课题组，物理、光纤传感、人工智能方向）

如何评价 Kimi 发布的多模态推理模型 k1.5？

告别手工特征提取！SparseViT 开启图像篡改定位新篇

CricaVPR：开启视觉位置识别新篇章，跨图像相关性助力性能飞跃

漫谈 Transformer 中的绝对位置编码、相对位置编码和融合位置编码（旋转位置编码 RoPE）

Nature | 给出材料性质就能输出材料结构，微软最新MatterGen模型，真猛！

博士招生 | 南方科技大学ai{DEAL} 课题组人机交互与教育技术方向博士后招聘

ECCV 2024 | 最新直方图transfomer，直接涨点起飞！

博士招生 | 吉林大学计算机学院90后教授、博士生导师招生、招老师啦！

AAAI 2024 | 动态频域fft模块，几行代码，有效提点，即插即用

得克萨斯大学提出一种解码器，以极低计算成本达成医学图像分割SOTA新性能！

TPAMI 2024 | 神来一笔！无监督半监督怎么进行球形空间领域适应呢？

超越Transformer，魔改的Mamba将横扫顶会？！

ICCV 2023 | 多尺度线性注意力模块，有效涨点，即插即用

博士招生 | 英国斯旺西大学招收研究型硕士（无需上课）和博士

CVPR 2024 | 单头注意力机制(SHSA)，即插即用，涨点起飞！

CVPR 2024 | 最新即插即用注意力机制+ffn层

博士招生 | 新加坡国立大学（NUS）招聘多名机器学习控制相关的全奖博士生 , 博士后

ECCV 2024 | 小波变换卷积的即插即用，引入了频域信息，助你涨点起飞

博士招生 | 加拿大阿尔伯塔大学招收电磁、无线通信、机器学习方向全奖硕士/博士/博士后/访问学者

TPAMI 2024 | 多模态融合超前研究！维度情感识别！

像教女朋友一样教你用Cuda实现PyTorch算子

TPAMI 2024 | 全新框架！深度学习可解释度量学习！

招生 | AI方向博士后招聘--北航杭州国际校园薪金40万起！

厉害了，LSTM+Transformer王炸创新，精准度又高了！

看我操作，手写一个神经网络训练架构！

一句话就能让论文评分飞升！上交大揭露大模型审稿背后的深度逻辑及风险！

【扩散模型】拿下CVPR两篇最佳论文，它究竟有何特别之处？我直呼牛批克拉斯！

博士招生 | 上海交通大学人工智能学院赵波课题组招硕博士生/实习生

一文读懂如何使用图框架构建多代理应用程序

博士招生 | 上海科技大学信息科学与技术学院 - 汪婧雅教授团队招收机器学习方向博士

仅需一万块钱！清华团队靠强化学习让 7B模型数学打败GPT-4o

TPAMI 2024 | 变态但很有效的图像识别方法！对于小样本泛化有奇效！

Stable Video Diffusion整出新活！学习【扩散模型视频】掌握3D/视频生成变革！

北京AI公司联合哈工大深圳联合招聘生物医学AI算法科研实习生（北京深圳均可）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉