“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注!
1 论文信息
题目:InvPT++: Inverted Pyramid Multi-Task Transformer for Visual Scene Understanding
倒置金字塔多任务Transformer用于视觉场景理解
作者:Hanrong Ye, Dan Xu
2 论文创新点
提出了一种新的多任务学习框架InvPT++,该框架通过倒置金字塔结构的Transformer模型,实现了跨任务特征的全局交互和多尺度学习。 设计了UP-Transformer块和两种类型的跨尺度自注意力模块(融合注意力和选择性注意力),有效提升了多任务特征的交互和模型的计算效率。 引入了编码器特征聚合策略,增强了模型对多尺度信息的建模能力,从而在多个2D/3D多任务场景理解基准测试上取得了显著的性能提升。
3 方法
3.1 框架概述
3.2 InvPT++ 编码器
3.3 任务特定的初步解码器
3.4 InvPT++ 解码器结构
3.5 UP-Transformer块
3.5.1 Reshape & Up:多任务特征上采样
3.5.2 空间全局跨任务交互的建模
3.6 跨尺度自注意力:融合注意力和选择性注意力
3.6.1 融合注意力
3.6.2 选择性注意力
3.6.3 编码器特征聚合
4 实验
本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
收藏,分享、在看,给个三连击呗!