ICCV'23旷视科技Cross Modal Transformer(CMT)工作提出了——跨模态的Transformer将图像和点云数据作为输入,并且直接生成精确的3D检测框。在nuScenes test数据集上达到了74.1%的NDS(单一模型的最先进技术),同时保持了快速的推理速度。此外,整个跨模态的Transformer设计非常简单,主要是它易于复现。
为了让大家更好的掌握跨模态3D目标检测器,并改进融合运用到自己的论文中,研梦非凡于10月31日晚(周四),邀请了来自QStop50学校博士—杨导师,为大家独家详解《超实用发论文方向!基于Transformer的3D 目标检测》,从跨模态Transformer的性能与贡献到3D目标检测、重点讲解跨模态Transformer的算法研究以及实验,一文速通跨模态3D目标检测,复现论文,找创新点,轻松发论文!
👇🏻扫描二维码找助教0元预约直播课!
直播课内容预览
ICCV'23《Cross Modal Transformer: Towards Fast and Robust 3D Object Detection 》
一、论文摘要
CMT模型 无需显式视图转换 设计简洁易复现 多模态tokens的空间对齐 快推理速度,高准确率
二、研究背景
跨模态介绍 跨模态Transformer与SOTA性能的比较 跨模态Transformer的主要贡献
三、相关工作
基于相机的3D目标检测 基于LiDAR的3D目标检测 多模态的3D目标检测 基于Transformer的目标检测
四、算法研究
跨模态Transformer的结构
跨模态变换器(CMT)架构 CMT通过建立不同模态间的位置对应关系
坐标编码模块(CEM) 图像的CE 点云的CE 位置引导的查询生成器 解码器和损失函数 基于Mask的训练和模型鲁棒性研究 讨论
CMT与FUTR3D在端到端建模动机上类似,但方法和效果完全不同 主要区别
五、实验结果
数据集和评估指标 实验细节 与最先进技术的比较 强大的鲁棒性 消融研究 分析
六、总结和展望
跨模态的Transformer 强大的性能且易于复现
👇🏻扫描二维码找助教0元预约直播课!
直播导师介绍
杨导师
杨导师,博士毕业于QStop50知名计算机名校。
博士期间研究方向:聚焦为计算机视觉,自然语言处理,高效的深度学习训练和推理方法,大语言模型轻量化与高效微调技术。
曾在多家公司担任算法研究员,并进行计算机视觉,高效模型压缩算法,多模态大语言模型的研究,包括模型量化,剪枝,蒸馏,编译以及高效稀疏化训练与推理。
在国际顶级会议CVPR,ICCV,EMNLP等发表13篇论文,并担任CVPR,ICCV,ECCV,ICML,ICLR,NeurIPS等重要会议和期刊的审稿人。
多项发明专利,指导学生有耐心,教学严谨,思维逻辑缜密,已经指导数十篇论文。
对于成果好的学生,帮助学生写推荐信和指导申请硕/博申请。
👇🏻扫描二维码找助教0元预约直播课!约导师meeting~
ps:研梦非凡开设的前沿论文系列直播,旨在帮助大家提升读论文技能,快速抓住重点,掌握有效方法,进而找到创新点,轻松产出科研论文成果。
研梦非凡科研论文指导
科研论文idea,并非拍脑门就能产生,需要经过一遍遍做实验、跑代码、改模型、思路修正。研梦非凡专业论文指导,和研梦导师一起找idea,共同解决科研问题。授之以渔——搭建论文写作框架,增删改查,针对性实验指导!哪里薄弱补哪里!
<<< 左右滑动见更多 >>>
研梦非凡部分导师介绍
研梦非凡导师团队,来自海外QStop200、国内华五、C9、985高校的教授/博士导师/博士后,以及世界500强公司算法工程师、国内外知名人工智能实验室研究员等。
这是一支实力强大的高学历导师团队,在计算机科学、机器学习、深度学习等领域,积累了丰富的科研经历,研究成果也发表在国际各大顶级会议和期刊上,在指导学员的过程中,全程秉持初心,坚持手把手个性化带教。包括但不限于以下导师~
<<< 左右滑动见更多 >>>
比赛8人冲牌小班介绍(第一二期已满,三期开招)
<<< 左右滑动见更多 >>>
我们不是小作坊哦~我们背靠研途考研(就是张雪峰老师和徐涛老师在的那个研途考研),做教育十余年,重交付,重口碑,是我们一贯的公司理念!