CVPR 2024 上海人工智能实验室专场直播丨AI Spot 学术分享会

文摘   2024-07-22 21:29   上海  


由 OpenMMLab 联合 OpenDataLab、OpenXLab、OpenGVLab 社区共同发起,MLNLP、Datawhale、ReadPaper、极市平台和真格基金共同参与的 AI Spot 学术分享会即将来袭!AI Spot 聚焦 AI 领域前沿工作,邀请顶会论文一作亲临分享,交流 AI 前沿研究、审视 AI 发展趋势,共同拓展认知边界。


首期 AI Spot 分享会将在 7 月 24 日和 7 月 25 日 带来连续两晚(19:00-21:00)的精彩直播分享。8 位来自上海人工智能实验室通用视觉、浦视和开放算法团队的研究人员将分享在 CVPR 2024 上发表的最新工作,内容涵盖当下主流热门任务,如多模态大模型、多模态的评测基准、三维重建、图片编辑和生成等,欢迎大家点击下方按钮预约观看最热门、最全面的 CVPR 专题分享。



No.

7 月 24 日  精彩议题抢先看


  • 多模态大模型幻觉成因解释以及基于惩罚回退策略的幻觉缓解方法

  • GenNBV:面向主动三维重建的可泛化最佳视角探索策略

  • 基于像素点的拖拽式图像编辑

  • 个性化图像动画生成器,利用文本提示将图像变为奇妙的动画


No.

7 月 24 日  分享嘉宾及主题介绍


黄启栋


中国科学技术大学的博士生,研究方向为可信/高效 AI 和多模态大模型的基础研究,以第一作者/通讯作者身份在 CVPR、ICCV、IEEE TIP 等 CCF A 类国际顶级期刊会议上发表论文7篇,其中一作 6 篇,同时是国家奖学金等荣誉获得者。近期在多模态大模型领域的代表作 OPERA 在国内知名公众媒体平台总计阅读量超过 4 万,引起学界广泛关注。


分享主题:

多模态大模型幻觉成因解释以及基于惩罚回退策略的幻觉缓解方法


简要概述:

本次分享将从信息流角度解释当前多模态大模型在输出长文本时产生幻觉的原因,揭示大模型本身在文本生成过程中的总结特性,通过一系列实验说明了视觉信息在序列中的“遗忘”特点。对此,本文在 Beam Search 的基础上创新性地加入对于“过度信赖”的惩罚以及回退策略,从多个维度的实验上表现出对于幻觉缓解的可行性与有效性。


论文链接

https://arxiv.org/abs/2311.17911

代码链接

https://github.com/shikiw/OPERA


陈骁


香港中文大学 MMLab 博士生,上海人工智能实验室浦器 OpenRobotLab 团队实习生。目前的研究兴趣是具身智能和三维视觉,尤其是三维空间中可泛化的探索和主动重建策略。个人主页:https://xiao-chen.tech/


分享主题:

GenNBV:面向主动三维重建的可泛化最佳视角探索策略


简要概括

近年来,神经辐射场等技术促进了复杂物体和大规模场景的高保真数字化。但是,采集训练所需的高质量图像仍然是个非常费时费力的过程。为了克服现有方法跨场景泛化能力的缺陷,我们提出了 GenNBV,一种端到端、可泛化的 NBV 策略。通过采用强化学习框架,以更通用的采集准则进行迭代优化,将之前受限的动作空间推广到五自由度的连续空间,使载有采集设备的无人机能够以任意角度进行数据采集。此外,易部署的多源场景表征集成了场景的几何和语义和采集轨迹等信息,显著增强了 NBV 策略的跨场景泛化能力。

实验方面,我们基于 Isaac Gym 仿真器和 Houses3K、OmniObject3D 等数据集建立了一套主动重建的基准。实验证明,我们的 NBV 策略可以不作微调地泛化到训练阶段未见过的、建筑物规模的目标物体上,并且在表面覆盖率、采集效率和重建精度等方面都超过了之前的方法。


论文链接

https://arxiv.org/abs/2402.16174

代码链接

https://github.com/zjwzcx/GenNBV


凌鹏扬


中国科学技术大学二年级博士生,研究方向包括图像先验知识挖掘,高效可靠的图像复原,灵活的图像编辑,和可控式视频生成。


分享主题

基于像素点的拖拽式图像编辑


简要概括

为了实现稳定的拖拽式图像编辑,本团队提出了动态更新的模版特征和具有回溯机制的线性搜索。模版特征通过动态调整每次特征更新的尺度来提高特征的平稳性和可靠性;线性搜索通过主动限制搜索空间来缓解相似语意点的干扰;两者协同实现更加稳定的拖拽式图像编辑。


论文链接

https://arxiv.org/html/2307.04684v3

代码链接

https://github.com/LPengYang/FreeDrag

Demo 体验链接

https://openxlab.org.cn/apps/detail/LPengYang/FreeDrag


张倚铭


上海人工智能实验室和中国科学技术大学联培博士生,研究方向主要为生成式人工智能包括视频生成、音频生成等。


分享主题:

个性化图像动画生成器,利用文本提示将图像变为奇妙的动画


简要概括:

个性化文本到图像 (T2I) 模型的最新进展彻底改变了内容创作,使非专业人士能够生成具有独特风格的惊人图像。虽然很有前途,但通过文本在这些个性化图像中添加逼真的运动在保留独特的风格、高保真细节和通过文本实现运动可控性方面带来了重大挑战。我们介绍一款个性化图像动画生成器 PIA,它擅长与条件图像对齐,通过文本实现运动可控性,以及与各种个性化 T2I 模型的兼容性,无需特定微调。


论文链接

https://arxiv.org/abs/2312.13964

代码链接

https://github.com/open-mmlab/PIA

Demo 体验链接

https://openxlab.org.cn/apps/detail/zhangyiming/PiaPia/


No.

7 月 25 日  精彩议题抢先看


  • 人机协作的视觉生成

  • MVBench: 多模态视频评测体系

  • 单阶段多维度模型搜索范式

  • EgoExolearn:跨视角技能学习数据集


No.

7 月 25 日  分享嘉宾及主题介绍


黄子琪


新加坡南洋理工大学 MMLab@NTU 博士生,主要研究方向为视觉生成以及评测,谷歌博士奖学金 2023 获得者。


分享主题:

人机协作的视觉生成


简要概括:

近年来,视觉生成领域发展迅速。GANs 和扩散模型,结合大规模数据集,通过实现高质量的图像和视频生成,在娱乐、虚拟现实和数字艺术领域引发了革命性的应用。尽管取得了显著进展,现有系统仍缺乏实现有效人机协作所需的灵活性和可控性。本报告探讨人机协作的方法,旨在通过解决两个关键问题来增强视觉内容生成系统的灵活性与可控性:1)如何在视觉内容生成和操控过程中有效注入人类意图?2)从人类的角度来看,生成的内容效果如何,并且基于评价反馈可以做出哪些改进?


论文链接

https://arxiv.org/pdf/2311.17982

代码链接

https://github.com/Vchitect/VBench

Demo 体验链接

https://huggingface.co/spaces/Vchitect/VBench_Leaderboard


黎昆昌


现为中国科学院大学博士生,研究领域为视频多模态理解,在 TPAMI、CVPR、ICLR、ICCV 等顶级会议期刊上发表论文 19 篇,其中一作/共一 10 篇,谷歌学术引用 2600 余次,曾获博士国家奖学金、中科院院长奖学金等荣誉。


分享主题:

MVBench: 多模态视频评测体系


简要概括:

近年来,多模态大型语言模型(MLLMs)快速发展,然而大多数基准测试主要关注静态图像任务的空间理解,忽视了动态视频任务的时间理解。为此,我们推出了 MVBench,一个涵盖 20 个时间相关视频任务的多模态视频理解基准。我们通过静态转动态的方法定义这些任务,并自动将公共视频注释转为多项选择问答,确保高效构建和评估公平性。此外,我们开发了视频 MLLM 基线 VideoChat2,通过多模态训练和多样化数据实现了卓越性能。实验结果表明,现有 MLLMs 在时间理解上表现不佳,而 VideoChat2 在 MVBench 上的表现超过了这些模型 15% 以上。


论文链接

https://arxiv.org/pdf/2311.17005

代码链接

https://github.com/OpenGVLab/Ask-Anything


叶涵诚


2023 年硕士毕业于复旦大学,现为上海人工智能实验室研究员,研究领域为高效机器学习,神经网络模型压缩。


分享主题:

单阶段多维度模型搜索范式


简要概括:

针对目前 ViT 模型搜索中两阶段搜索带来的搜索成本和评估性能下降,提出单阶段搜索框架,并利用 MIM 技术提升压缩过程中特征的表征能力,从而在压缩过程中保持重要度和稀疏度评估的准确性。


论文链接

https://arxiv.org/pdf/2403.15835

代码链接

https://github.com/HankYe/Once-for-Both


裴宝琦


上海人工智能实验室通用视觉中心(OpenGVLab)见习研究员,研究方向为计算机视觉,包括第一人称视频理解、多模态大模型等。


分享主题:

EgoExolearn:跨视角技能学习数据集


简要概括:

跨视角技能学习数据集 EgoExoLearn,旨在为机器人赋予通过观察他人学习新动作的能力。通过采集第一视角与第三视角的视频素材,为机器模拟人类学习模式提供了宝贵的数据资源。同时,EgoExoLearn 精心收录了总计 120 小时的视角与示范视频,旨在让机器在多种环境下都能有效学习。

除视频外,我们还记录了高质量的注视数据,并辅以详尽的多模态标注。这些数据与标注的结合,构建了一个全面模拟人类学习过程的平台,有助于解决机器在不同视角下对异步动作过程的建模难题。

为了全面评估 EgoExoLearn 数据集的价值,我们提出了一系列基准测试,如跨视角关联、跨视角行动规划及跨视角参考技能评估等,并进行了深入的分析。我们坚信,EgoExoLearn 将成为跨视角行动桥接的重要基石,为机器人无缝学习真实世界中的人类行为提供坚实支撑。

展望未来,我们期待 EgoExoLearn 数据集能助力 AI 技术的进一步突破,推动机器人从单纯的模仿走向真正的智能,实现与人类社会的和谐共存与共同发展。


论文链接

https://arxiv.org/pdf/2403.16182

代码链接

https://github.com/OpenGVLab/EgoExoLearn


No.

参与方式


观看直播



参与讨论


扫描二维码加入主题交流群,近距离接触更多 AI 小伙伴,还有机会加入直播间与嘉宾当面交流。



更多精彩内容尽在 7 月 24 日和 7 月 25 日晚的 AI Spot  CVPR 专场直播,也欢迎加入 AI Spot 学术交流圈,与学术大佬面对面互动交流~





OpenDataLab
上海人工智能实验室是我国人工智能领域新型科研机构,开展战略性、原创性、前瞻性的科学研究与技术攻关,目标建成国际一流的人工智能实验室,成为享誉全球的人工智能原创理论和技术的策源地。
 最新文章