本文精选了美团技术团队被CVPR 2024收录的7篇论文进行解读,这些论文既包括OCR预训练、长尾半监督学习等基础学习范式升级,也包括图生视频、数字人驱动、视听分割(AVS)等视觉AIGC技术创新。这些论文有美团视觉智能部的独立产出,也有跟高校、科研机构合作的成果。希望能给从事相关研究工作的同学带来一些帮助或启发。
CVPR 全称为 IEEE Conference on Computer Vision and Pattern Recognition,国际计算机视觉与模式识别会议。该会议始于1983年,与ICCV和ECCV并称计算机视觉方向的三大顶级会议。根据谷歌学术公布的2022年最新学术期刊和会议影响力排名,CVPR在所有学术刊物中位居第4,仅次于Nature、NEJM和Science。
6月27日(周四),我们将邀请4位论文作者进行线上分享,文末有详细介绍(以及CVPR展会信息),欢迎点击这里报名~
01
ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting
本文提出了一种创新的预训练方法,称为OCR-Text Destylization Modeling(ODM),它可以将图像中不同风格的文本转换为基于文本提示的统一风格文本。通过ODM,我们可以更好地对齐文本提示和图像中OCR文本,并使预训练模型适应场景文本检测和端到端任务中复杂多样的字体风格。此外,我们还设计了一种新颖的标签生成方法,并将其与我们提出的文本控制器模块相结合,有效降低了OCR任务中的标注成本,使得更多未经人工标注的数据能够被用于预训练。在多个公共数据集上的实验表明,我们的方法在场景文本检测和端到端识别任务中显著提高了性能,并超过了现有的预训练方法。
02
BEM: Balanced and Entropy-based Mix for Long-Tailed Semi-Supervised Learning
备注:SJTU(Shanghai Jiao Tong University)
论文下载:PDF
03
Animating General Image with Large Visual Motion Model
04
CustomListener: Text-guided Responsive Interaction for User-friendly Listening Head Generation
展示位置:6月19日 10:30-12:00(美西时间) Poster Session 1 No.216 & Exhibit Hall (Arch 4A-E)
05
Cooperation Does Matter: Exploring Multi-Order Bilateral Relations for Audio-Visual Segmentation
论文作者:Qi Yang(UCAS,CASIA),Xing Nie(UCAS,CASIA),Tong Li(Meituan),Pengfei Gao(Meituan),Ying Guo(Meituan),Cheng Zhen(Meituan),Pengfei Yan(Meituan),Shiming Xiang(UCAS,CASIA)
本论文提出了一种创新的视听Transformer框架,名为COMBO,即COoperation of Multi-order Bilateral relatiOns。该框架首次探讨了视听分割中三种双边纠缠关系:像素纠缠、模态纠缠和时间纠缠。针对像素纠缠,图像和发声目标掩码之间存在像素级关系,图像中的无关背景往往会影响掩码预测的精度,目前大部分方法所依赖的基础分割模型如SAM(Segment Anything Model)系列,在通用分割任务中展示出了很好的鲁棒性和泛化性,但迁移到AVS任务中后,无法达到很好的性能,因为AVS目的是得到所有发声目标的像素级分割,而SAM是在无语音引导条件下的类别级分割,无法直接进行适配。因此我们采用了孪生编码模块,利用先验知识生成更精确的视觉特征。针对模态纠缠,两种模态之间存在内在联系,如图像可以用文字描述,声音可以对应图像中的目标物,已有的方法往往聚焦在音频模态对视觉模态的影响,而忽略了视觉对音频的影响,相较于以上单边融合方法,我们认为两种模态的相互融合能带来更优的效果,因此设计了双边融合模块,来实现视觉特征和听觉信号的双向对齐,该模块使视觉特征更聚焦在发声目标,同时使语音信号更关注视觉目标。针对时间纠缠,在视频序列中,能够根据过去的帧序列结果来估计当前帧,同时也可以根据当前帧结果预测未来帧,基于以上时序间内在关系,我们引入了一种自适应帧间一致性损失算法。综合实验和消融研究表明,COMBO在AVSBench-Object和AVSBench-Semantic数据集上均优于现有的最先进方法。
06
论文作者:Chang Liu* (SJTU,Shanghai Al Laboratory),Haoning Wu*(SJTU),Yujie Zhong(Meituan),Xiaoyun Zhang(SJTU),Yanfeng Wang(SJTU,Shanghai Al Laboratory),Weidi Xie(SJTU,Shanghai Al Laboratory)
论文简介:生成模型最近在文本到图像生成方面展示了出色的能力,但在生成连贯的图像序列方面仍然存在困难。在本研究中,我们专注于根据给定的故事情节生成连贯图像序列的新颖而具有挑战性的任务,称为开放式视觉叙事。我们的工作有以下三个贡献:
为了完成视觉叙事的任务,我们提出了一种基于学习的自回归图像生成模型,称为StoryGen,它具有一个新颖的视觉-语言上下文模块,可以在依据相应的文本提示和之前的图像-字幕对的条件下生成当前帧;
为了解决视觉叙事数据的不足,我们通过从在线视频和开源电子书中收集配对的图像-文本序列,建立了处理流水线,构建了一个具有多样化人物、情节和艺术风格的大规模数据集,命名为StorySalon;
定量实验证明了我们的StoryGen的优越性,我们展示了StoryGen可以推广到未见过的角色而无需任何优化,并生成具有连贯内容和一致人物的图像序列。
InstaGen: Enhancing Object Detection by Training on Synthetic Dataset
展示位置:6月20日 10:30-12:00(美西时间)Poster Session 3 No.432 & Exhibit Hall (Arch 4A-E)
论文作者:Chengjian Feng(Meituan),Yujie Zhong(Meituan),Zequn Jie(Meituan),Weidi Xie(SJTU), Lin Ma(Meituan)
论文简介:近年来,文本到图像的生成模型在生成高质量图像方面取得了显著的成功,这为使用合成图像训练视觉系统提供了可能。现有的文本到图像生成模型通常可以根据某些自由形式的文本提示来生成图像。尽管这些生成的图像看起来很逼真,但无法满足训练复杂系统的需求,因为这些系统通常需要有实例级的注释,例如目标检测需要物体边界框。
识别图片上的二维码(或点击图片)跳转报名,一起来交流吧~
活动二:CVPR 2024 与美团相约西雅图
美团在CVPR 2024西雅图会场也有丰富的线下活动,欢迎参加CVPR的同行们到大会现场交流。
Booth
展出时间:6月19~6月21日(美西时间)
BoothTalk(Booth: 1417)
6月19日 15:00-15:30(美西时间)美团自动配送车团队
6月20日 15:00-15:30(美西时间)美团视觉智能部团队
Workshop
时间地点:6月17日 9:00 –18:00 Summit 442(美西时间)
Workshop主题:Foundation Models for Autonomous Systems
Workshop
时间地点:6月17日 9:00 –12:00 Arch 201(美西时间)
Workshop主题:5th Chalearn Face Anti-spoofing Workshop and Challenge
---------- END ----------
美团科研合作致力于搭建美团技术团队与高校、科研机构、智库的合作桥梁和平台,依托美团丰富的业务场景、数据资源和真实的产业问题,开放创新,汇聚向上的力量,围绕机器人、人工智能、大数据、物联网、无人驾驶、运筹优化等领域,共同探索前沿科技和产业焦点宏观问题,促进产学研合作交流和成果转化,推动优秀人才培养。面向未来,我们期待能与更多高校和科研院所的老师和同学们进行合作。欢迎老师和同学们发送邮件至:meituan.oi@meituan.com。