速看!2024 CVPR 上海人工智能实验室专场直播回顾&干货资料包来了

文摘   2024-08-06 21:03   上海  

7月24-25日,由 OpenMMLab 联合 OpenDataLab、OpenXLab、OpenGVLab 社区共同发起,MLNLP、Datawhale、ReadPaper、极市平台和真格基金共同参与的 AI Spot 学术分享会 第一期成功举办。


点击查看完整活动介绍:CVPR 2024 上海人工智能实验室专场直播丨AI Spot 学术分享会


第一期以“2024 CVPR 上海人工智能实验室专场”为主题,邀请了8 位来自上海人工智能实验室通用视觉、浦视和开放算法团队的研究人员分享了在 CVPR 2024 上发表的最新工作,内容涵盖当下主流热门任务,如多模态大模型、多模态的评测基准、三维重建、图片编辑和生成等。


错过了第一期AI Spot直播?别担心,点击下方视频,查看精彩内容回放


关注“OpenDataLab”公众号,后台回复关键词“AI SPOT”,即可领取资料包完整内容,内含嘉宾演讲PPT、直播精彩视频、热门AI开源项目资源等。


01


中国科学技术大学在读博士生 黄启栋


《多模态大模型幻觉成因解释以及基于惩罚回退策略的幻觉缓解方法》


“我们提出了OPERA,一种基于“过度信赖”的惩罚以及回退策略的新型多模态大模型解码方法,它可以近乎作为“免费的午餐”,无需额外的数据、知识或训练即可缓解幻觉问题。”

完整回放)

论文链接
https://arxiv.org/abs/2311.17911
代码链接
https://github.com/shikiw/OPERA



02


香港中文大学 MMLab 博士生 陈骁


GenNBV:面向主动三维重建的可泛化最佳视角探索策略


我们提出了GenNBV,一种端到端、可泛化的NBV策略,通过强化学习优化通用采集准则,将动作空间扩展至五自由度连续空间,实现无人机随意多角度数据采集。基于Isaac Gym仿真器和Houses3K、OmniObject3D数据集,建立了主动重建基准。实验显示,GenNBV策略无需微调即可泛化至新的建筑物规模的目标物体上,且在覆盖率、效率和精度方面超越之前的方法。
(完整回放)
论文链接
https://arxiv.org/abs/2402.16174
代码链接
https://github.com/zjwzcx/GenNBV



03


中国科学技术大学在读博士生 凌鹏扬


基于像素点的拖拽式图像编辑


为了实现稳定的拖拽式图像编辑,本团队提出了动态更新的模版特征和具有回溯机制的线性搜索。模版特征通过动态调整每次特征更新的尺度来提高特征的平稳性和可靠性;线性搜索通过主动限制搜索空间来缓解相似语意点的干扰;两者协同实现更加稳定的拖拽式图像编辑。
(完整回放)

论文链接

https://arxiv.org/html/2307.04684v3

代码链接

https://github.com/LPengYang/FreeDrag

Demo 体验链接

https://openxlab.org.cn/apps/detail/LPengYang/FreeDrag



04


中国科学技术大学和上海 AI Lab 联培博士生 张倚铭


个性化图像动画生成器,利用文本提示将图像变为奇妙的动画


个性化文本到图像 (T2I) 模型的最新进展彻底改变了内容创作,使非专业人士能够生成具有独特风格的惊人图像。我们介绍一款个性化图像动画生成器 PIA,它擅长与条件图像对齐、通过文本实现运动可控性以及与各种个性化 T2I 模型兼容而无需进行特定调整。
(完整回放)
论文链接
https://arxiv.org/abs/2312.13964
代码链接
https://github.com/open-mmlab/PIA
Demo 体验链接
https://openxlab.org.cn/apps/detail/zhangyiming/PiaPia/


05


新加坡南洋理工大学 MMLab 在读博士生 黄子琪


人机协作的视觉生成


视频生成已取得重大进展,但评估这些模型仍然是一个挑战。视频生成的综合评估基准是必不可少的原因有二:1)现有指标与人类感知不完全一致;2)理想的评估系统应提供见解,以指导视频生成的未来发展。为此,我们提出了 VBench,这是一个全面的基准套件,它将“视频生成质量”分解为具体、分层和解开的维度,每个维度都有量身定制的提示和评估方法。
(完整回放)
论文链接
https://arxiv.org/pdf/2311.17982
代码链接
https://github.com/Vchitect/VBench
Demo 体验链接
https://huggingface.co/spaces/Vchitect/VBench_Leaderboard


06


中国科学技术大学在读博士生 黎昆昌


MVBench: 多模态视频评测体系


“我们推出了 MVBench,一个涵盖 20 个时间相关视频任务的多模态视频理解基准。我们通过静态转动态的方法定义这些任务,并自动将公共视频注释转为多项选择问答,确保高效构建和评估公平性。此外,我们开发了视频 MLLM 基线 VideoChat2,通过多模态训练和多样化数据实现了卓越性能。”
(完整回放)
论文链接
https://arxiv.org/pdf/2311.17005
代码链接
https://github.com/OpenGVLab/Ask-Anything


07


上海 AI Lab 研究员 叶涵诚


《单阶段多维度模型搜索范式》


“我们首次研究如何将重要性分数和稀疏性分数的评估整合到一个阶段,以高效的方式搜索最优子网。具体而言,我们提出了 OFB,这是一种同时评估重要性分数和稀疏性分数的经济高效的方法,用于 VTC,称为 Once for Both (OFB)。
(完整回放)
论文链接
https://arxiv.org/pdf/2403.15835
代码链接
https://github.com/HankYe/Once-for-Both


08


上海 AI Lab 见习研究员 裴宝琦


EgoExolearn:跨视角技能学习数据集


“我们提出了跨视角技能学习数据集EgoExoLearn ,这是一个模拟人类示范跟随过程的数据集,其中个人在执行由外向视图演示视频指导的任务时录制自我中心视频。EgoExoLearn 专注于日常协助和专业支持方面的潜在应用,包含在日常生活场景和专业实验室中拍摄的长达 120 小时的自我中心和演示视频数据。除了视频之外,我们还记录了高质量的注视数据并提供详细的多模态注释,为模拟人类从不同视角连接异步程序动作的能力制定了一个平台。”
(完整回放)
论文链接
https://arxiv.org/pdf/2403.16182
代码链接
https://github.com/OpenGVLab/EgoExoLearn


如果你想听更多AI学术前沿论文分享,欢迎评论区留言,期待下一期与大家再见~
本期嘉宾论文、仓库链接已汇总
扫码查看
👇

浏览器访问:https://openxlab.org.cn/apps/detail/houshaowei/AI-SPOT_CVPR24

全部直播回放视频,可访问OpenDataLab B站主页获取:https://space.bilibili.com/1081749692/


相关阅读:

WAIC上官宣!大模型语料提取工具MinerU正式发布,开源免费“敲”好用

2024-07-05

赌你一定想要!OpenDataLab首款大模型多模态标注平台Label-LLM正式开源

2024-06-06

上海AI Lab开源首个可替代GPT-4V的多模态大模型

2024-06-04

小小视频-文本标注,LabelU轻松拿下!

2024-04-02


OpenDataLab
上海人工智能实验室是我国人工智能领域新型科研机构,开展战略性、原创性、前瞻性的科学研究与技术攻关,目标建成国际一流的人工智能实验室,成为享誉全球的人工智能原创理论和技术的策源地。
 最新文章