速看！2024 CVPR 上海人工智能实验室专场直播回顾&干货资料包来了

文摘 2024-08-06 21:03 上海

7月24-25日，由 OpenMMLab 联合 OpenDataLab、OpenXLab、OpenGVLab 社区共同发起，MLNLP、Datawhale、ReadPaper、极市平台和真格基金共同参与的 AI Spot 学术分享会 第一期成功举办。

（点击查看完整活动介绍：CVPR 2024 上海人工智能实验室专场直播丨AI Spot 学术分享会）

第一期以“2024 CVPR 上海人工智能实验室专场”为主题，邀请了8 位来自上海人工智能实验室通用视觉、浦视和开放算法团队的研究人员分享了在 CVPR 2024 上发表的最新工作，内容涵盖当下主流热门任务，如多模态大模型、多模态的评测基准、三维重建、图片编辑和生成等。

错过了第一期AI Spot直播？别担心，点击下方视频，查看精彩内容回放。

关注“OpenDataLab”公众号，后台回复关键词“AI SPOT”，即可领取资料包完整内容，内含嘉宾演讲PPT、直播精彩视频、热门AI开源项目资源等。

中国科学技术大学在读博士生黄启栋

《多模态大模型幻觉成因解释以及基于惩罚回退策略的幻觉缓解方法》

“我们提出了OPERA，一种基于“过度信赖”的惩罚以及回退策略的新型多模态大模型解码方法，它可以近乎作为“免费的午餐”，无需额外的数据、知识或训练即可缓解幻觉问题。”

（完整回放）

论文链接

https://arxiv.org/abs/2311.17911

代码链接

https://github.com/shikiw/OPERA

香港中文大学 MMLab 博士生陈骁

《GenNBV：面向主动三维重建的可泛化最佳视角探索策略》

“我们提出了GenNBV，一种端到端、可泛化的NBV策略，通过强化学习优化通用采集准则，将动作空间扩展至五自由度连续空间，实现无人机随意多角度数据采集。基于Isaac Gym仿真器和Houses3K、OmniObject3D数据集，建立了主动重建基准。实验显示，GenNBV策略无需微调即可泛化至新的建筑物规模的目标物体上，且在覆盖率、效率和精度方面超越之前的方法。”

（完整回放）

论文链接

https://arxiv.org/abs/2402.16174

代码链接

https://github.com/zjwzcx/GenNBV

中国科学技术大学在读博士生凌鹏扬

《基于像素点的拖拽式图像编辑》

“为了实现稳定的拖拽式图像编辑，本团队提出了动态更新的模版特征和具有回溯机制的线性搜索。模版特征通过动态调整每次特征更新的尺度来提高特征的平稳性和可靠性；线性搜索通过主动限制搜索空间来缓解相似语意点的干扰；两者协同实现更加稳定的拖拽式图像编辑。”

（完整回放）

论文链接

https://arxiv.org/html/2307.04684v3

代码链接

https://github.com/LPengYang/FreeDrag

Demo 体验链接

https://openxlab.org.cn/apps/detail/LPengYang/FreeDrag

中国科学技术大学和上海 AI Lab 联培博士生张倚铭

《个性化图像动画生成器，利用文本提示将图像变为奇妙的动画》

“个性化文本到图像（T2I）模型的最新进展彻底改变了内容创作，使非专业人士能够生成具有独特风格的惊人图像。我们介绍一款个性化图像动画生成器 PIA，它擅长与条件图像对齐、通过文本实现运动可控性以及与各种个性化 T2I 模型兼容而无需进行特定调整。”

（完整回放）

论文链接

https://arxiv.org/abs/2312.13964

代码链接

https://github.com/open-mmlab/PIA

Demo 体验链接

https://openxlab.org.cn/apps/detail/zhangyiming/PiaPia/

新加坡南洋理工大学 MMLab 在读博士生黄子琪

《人机协作的视觉生成》

“视频生成已取得重大进展，但评估这些模型仍然是一个挑战。视频生成的综合评估基准是必不可少的原因有二：1）现有指标与人类感知不完全一致；2）理想的评估系统应提供见解，以指导视频生成的未来发展。为此，我们提出了 VBench，这是一个全面的基准套件，它将“视频生成质量”分解为具体、分层和解开的维度，每个维度都有量身定制的提示和评估方法。”

（完整回放）

论文链接

https://arxiv.org/pdf/2311.17982

代码链接

https://github.com/Vchitect/VBench

Demo 体验链接

https://huggingface.co/spaces/Vchitect/VBench_Leaderboard

中国科学技术大学在读博士生黎昆昌

《MVBench: 多模态视频评测体系》

“我们推出了 MVBench，一个涵盖 20 个时间相关视频任务的多模态视频理解基准。我们通过静态转动态的方法定义这些任务，并自动将公共视频注释转为多项选择问答，确保高效构建和评估公平性。此外，我们开发了视频 MLLM 基线 VideoChat2，通过多模态训练和多样化数据实现了卓越性能。”

（完整回放）

论文链接

https://arxiv.org/pdf/2311.17005

代码链接

https://github.com/OpenGVLab/Ask-Anything

上海 AI Lab 研究员叶涵诚

《单阶段多维度模型搜索范式》

“我们首次研究如何将重要性分数和稀疏性分数的评估整合到一个阶段，以高效的方式搜索最优子网。具体而言，我们提出了 OFB，这是一种同时评估重要性分数和稀疏性分数的经济高效的方法，用于 VTC，称为 Once for Both (OFB)。”

（完整回放）

论文链接

https://arxiv.org/pdf/2403.15835

代码链接

https://github.com/HankYe/Once-for-Both

上海 AI Lab 见习研究员裴宝琦

《EgoExolearn：跨视角技能学习数据集》

“我们提出了跨视角技能学习数据集EgoExoLearn ，这是一个模拟人类示范跟随过程的数据集，其中个人在执行由外向视图演示视频指导的任务时录制自我中心视频。EgoExoLearn 专注于日常协助和专业支持方面的潜在应用，包含在日常生活场景和专业实验室中拍摄的长达 120 小时的自我中心和演示视频数据。除了视频之外，我们还记录了高质量的注视数据并提供详细的多模态注释，为模拟人类从不同视角连接异步程序动作的能力制定了一个平台。”

（完整回放）

论文链接

https://arxiv.org/pdf/2403.16182

代码链接

https://github.com/OpenGVLab/EgoExoLearn

如果你想听更多AI学术前沿论文分享，欢迎评论区留言，期待下一期与大家再见~

本期嘉宾论文、仓库链接已汇总

扫码查看

👇

浏览器访问：https://openxlab.org.cn/apps/detail/houshaowei/AI-SPOT_CVPR24

全部直播回放视频，可访问OpenDataLab B站主页获取：https://space.bilibili.com/1081749692/

相关阅读：

WAIC上官宣！大模型语料提取工具MinerU正式发布，开源免费“敲”好用

2024-07-05

赌你一定想要！OpenDataLab首款大模型多模态标注平台Label-LLM正式开源

2024-06-06

上海AI Lab开源首个可替代GPT-4V的多模态大模型

2024-06-04

小小视频-文本标注，LabelU轻松拿下！

2024-04-02

OpenDataLab

上海人工智能实验室是我国人工智能领域新型科研机构，开展战略性、原创性、前瞻性的科学研究与技术攻关，目标建成国际一流的人工智能实验室，成为享誉全球的人工智能原创理论和技术的策源地。

最新文章

从入门到“出圈”，书生大模型实战营第4期学员招募中 | 活动预告

DocLayout-YOLO，让多样性文档布局检测更快、更准、更强

免费下载 | 横跨120余年，数亿条学术数据，大规模学术数据库“智创”开源

谁才是你最爱的 AI 数据平台？在线等，急！（有奖调研）

直播预告丨热门开源工具MinerU详解：助力复杂PDF/网页高效解析提取

不是吧？这么好用的开源标注工具，竟然还有人不知道…

AI Spot 第 2 期丨ACL 2024 字节专场直播，与多位研究员在线畅聊

江湖救急：MinerU安装宝典，AI侠客必备

速看！2024 CVPR 上海人工智能实验室专场直播回顾&干货资料包来了

登顶GitHub Trending，开源工具MinerU助力复杂PDF高效解析提取

CVPR 2024 上海人工智能实验室专场直播丨AI Spot 学术分享会

A100算力加持！书生大模型实战营全面升级，趣味闯关等你来

AI考生能被什么大学录取？文科可上一本，理科过二本线

AI Talk直播预告⑤ | 详解MinerU：赋能大模型的高质量网页与PDF数据提取技术及工具分享

周伯文：探索人工智能45°平衡律

WAIC上官宣！大模型语料提取工具MinerU正式发布，开源免费“敲”好用

AI Talk直播预告④ | 详解MAP-Neo：第一个高性能、完全开源透明的双语LLM

ModelScope联手OpenDataLab：直接调用7000+开源数据集，赋能AI模型加速研发

AI Talk直播预告③ | 详解InternVideo2：最新多模态视频基础模型

ACL2024|上海AI Lab, 武汉大学，同济大学联合发布并开源第一个面向大语言模型的中文常识推理测评基准 CHARM !

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉