首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

科技 2024-11-11 14:09 北京

通过与现有模型对比，揭示当前模型在长视频理解上与人类水平的差距。

文丨量子位 ID：QbitAI

作者丨衡宇

空间智能版ImageNet来了，来自斯坦福李飞飞吴佳俊团队！

HourVideo，一个用于评估多模态模型对长达一小时视频理解能力的基准数据集，包含多种任务。

通过与现有模型对比，揭示当前模型在长视频理解上与人类水平的差距。

2009年，李飞飞团队在CVPR上首次对外展示了图像识别数据集ImageNet，它的出现极大推动计算机视觉算法的发展——懂CV的都是知道这里面的门道有多深。

现在，随着多模态迅猛发展，团队认为“现有的视频基准测试，大多集中在特定领域或短视频上”，并且“这些数据集的平均视频长度较短，限制了对长视频理解能力的全面评估”。

于是，空间智能版ImageNet应运而生。

HourVideo包含500个来自Ego4D数据集的第一人称视角视频，时长在20到120分钟之间，涉及77种日常活动。

评测结果表示，人类专家水平显著优于目前长上下文多模态模型中最厉害的Gemini Pro 1.5（85.0%对37.3%）。

在多模态能力上，大模型们还任重而道远。

HourVideo如何炼成？

之所以提出HourVideo，是因为研究人员发现目前长视频理解越来越重要，而现有评估benchmark存在不足。

多模态越来越卷，人们期待AI被赋予autonomous agents的类似能力；而从人类角度来看，由于人类具备处理长时间视觉处理的能力，因此能在现实视觉中感知、计划和行动。

因此，长视频理解对实现这一目标至关重要。

而当前的多模态评估benchmark，主要还是集中在评测单张图像或短视频片段（几秒到三分钟），对长视频理解的探索还有待开发。

不可否认的是，AI评估长视频理解面临诸多挑战，譬如要设计任务、避免通过先验知识或简短片断回答等。

因此，团队提出HourVideo。

这是一个为长视频理解而设计的基准数据集。

为了设计出需要长期理解的任务，团队首先提出了一个新的任务对应套件，包含总结、感知（回忆、跟踪）、视觉推理（空间、时间、预测、因果、反事实）和导航（房间到房间、对象检索）任务，共18个子任务。

其中，总结任务要求模型对视频中的关键事件、主要交互等进行概括性描述，例如总结出脖子上挂了个相机的人在超市中有什么关键交互行为。

感知任务由两部分构成，

一个是回忆任务，包括事实回忆（比如脖子上挂了个相机的人，在超市拿起的乳制品）和序列回忆（比如那个人在超市称完西红柿过后做了什么），以及对时间距离的判断（比如吃了多久的披萨才扔掉盒子）。

还有一个是跟踪任务，主要用来识别脖子上挂了个相机的人在特定场景（比如超市、药店）中互动的独特个体。

接下来是视觉推理任务，分为空间推理和时间推理。

空间推理负责判断物体之间的空间关系、空间接近度（如微波炉与冰箱或水槽相比是否更近）以及空间布局（如选择正确描绘脖子上挂相机的人的公寓的布局图）。

时间推理则包括对活动持续时间的比较、事件发生频率的判断、活动的先决条件、预测（如洗完衣服后最可能做的活动）、因果关系（如第二次离开车库的原因）以及反事实推理（如用烤箱做土豆泥会怎样）。

导航任务包含了房间到房间的导航、对象检索导航。

以上每个任务有精心设计的问题原型，以确保正确回答问题需要对长视频中的多个时间片段进行信息识别和综合，从而有效测试模型的长期理解能力。

与此同时，研究人员通过pipeline来生成了HourVideo数据集。

第一步，视频筛选。

团队从Ego4D数据集中手动审核1470个20到120分钟的视频，让5位人类专家选择了其中500个视频，

至于为啥要从Ego4D中选呢，一来是其以自我为中心的视角与autonomous agents和助手的典型视觉输入非常一致；二来是它具有广泛的视觉叙述，有助于创建多样化的题；三来Ego4D的访问许可非常友好。

第二步，候选MCQ生成。

这需要在长视频中跨多个时间片段，进行信息分析和合成。

具体来说，研究人员以20分钟为间隔分割了视频，提取信息转化为结构化格式供大模型处理。最终一共开发了25个特定任务的prompts。

第三步，LLM优化与人工反馈。

在这个阶段，团队实现了一个人工反馈系统，7名经验丰富的人员人工评估每个问题的有效性、答案准确性、错误选项合理性。最终收集了400多个小时的人工反馈，然后设计prompt，自动优化 MCQ₂得到 MCQ₃。

第四步，盲选。

这一阶段的目标是消除可以通过大模型先验知识的问题，或者消除那些可以在不用视频中任何信息就可以回答的问题。

团队用两个独立的大模型——GPT-4-turbo和GPT-4，对MCQ₃进行盲筛，确保剩余 MCQ₄高质量且专门测试长视频语言理解。

第五步也是最后一步，专家优化。

这一步是用来提升MCQ₄质量，将宽泛问题精确化，经此阶段得到高质量 MCQ₅。

4个专家干的事be like，把 “挂着相机的人把钥匙放在哪里了？” 精确成“挂着相机的人购物回家后，把自行车钥匙放在哪里了？”

如上pipeline中，研究图纳队使用了GPT-4来遵循复杂的多步骤指令，同时还使用了CoT提示策略。

此外，pipeline中涉及大模型的所有阶段的问题被设为0.1。

据统计，HourVideo涵盖77种日常生活场景，包含500个Ego4D视频，视频时长共381个小时、平均时长45.7分钟，其中113个视频时长超过1小时。

每个视频有约26个高质量五选一题，共计12976个问题。

除因果、反事实和导航任务外，问题在任务套件中均匀分布。

最好表现仍远低于人类专家水平

在实验评估方面，HourVideo采用五选多任务问答（MCQ）任务，以准确率作为评估指标，分别报告每个任务以及整个数据集的准确率。

由于防止信息泄露是评估长视频中的MCQ时的一个重要挑战——理想情况下，每个MCQ应独立评估，但这种方法计算成本巨高，且十分耗时。

因此，实际评估中按任务或子任务对问题进行分批评估，对于预测任务，提供精确的时间戳以便对视频进行有针对性的剪辑，从而平衡计算成本和评估准确性。

研究团队比较了不同的多模态模型在零镜头设置下理解长视频的性能。

主要评估了三类模型，所有这些模型都在一个通用函数下运行：

盲LLM：

指是指在评估过程中，不考虑视频内容，仅依靠自身预先训练的知识来回答问题的大型语言模型。

实验中以GPT-4为代表。它的存在可以揭示模型在多大程度上依赖于其预训练知识，而不是对视频中实际视觉信息的理解。

苏格拉底模型：

对于大多数当前的多模态模型，直接处理非常长的视频存在困难。

因此，采用Socratic模型方法，将视频（总时长为t分钟）分割成1分钟的间隔，每个间隔独立加字幕，然后将这些字幕聚合形成一个全面的基于语言的视频表示，并与通用任务无关的提示一起作为输入进行长视频问答。

实验中分别使用GPT-4和LLaVA- NEXT-34-DPO 为视频字幕生成器，并最终使用GPT-4进行实际问题回答。

原生多模态模型：

像Gemini 1.5 Pro这样的原生多模态模型，在多模态数据（包括音频、视频、图像和文本）上联合训练，能够处理非常长的上下文长度*（（2M +），适合直接对HourVideo进行端到端评估。

为了与模型性能进行对比，实验人员从基准数据集中选取了14个视频，涵盖>18种场景，包括手工制作/绘画、烹饪、建筑/装修、园艺、清洁/洗衣和庭院工作等。

然后邀请了3位人类专家，对上述总时长11.2小时的视频内容进行进行评估，共涉及213个MCQ。

为确保评估的公正性，参与评估的人类专家未参与过这些视频的早期注释工作。

最终，人类专家在评估中的准确率达到了85.0% 。

而盲LLM的准确率为19.6%，Socratic模型准确率略高，原生多模态模型准确率最高，达到了37.3%，仍然远低于人类专家水平。

此外，独立评估每个MCQ与按任务级别评估相比，性能下降2.1%，但成本增加3倍以上，证明了任务级评估方法的效率和有效性。

最后，团队表示未来计划扩展基准测试，包括更多样化的视频来源（如体育和YouTube视频），纳入音频模态支持，并探索其他感官模态。

同时强调在开发模型时需考虑隐私、伦理等问题。

团队成员

HourVideo项目来自斯坦福李飞飞和吴佳俊团队。

论文共同一作是Keshigeyan Chandrasegaran和Agrim Gupta。

Keshigeyan Chandrasegaran是斯坦福大学计算机科学博士二年级学生，从事计算机视觉和机器学习研究，导师是李飞飞和斯坦福视觉与学习实验室（SVL）联合主任胡安·卡洛斯·尼贝莱斯。

共同一作Agrim Gupta是斯坦福大学计算机科学专业的博士生，2019年秋季入学，同样是李飞飞的学生。

此前，他曾在微软、DeepMind，有Meta的全职经历，也在Google做过兼职。2018年时，他就跟随李飞飞一同在CVPR上发表了论文。

目前，Agrim的Google Scholar论文被引用量接近6400次。

李飞飞是大家熟悉的AI教母，AI领域内最具影响力的女性和华人之一。

她33岁成为斯坦福计算机系终身教授，44岁成为美国国家工程院院士，现任斯坦福以人为本人工智能研究院（HAI）院长。

计算机视觉领域标杆成果ImageNet亦是由她一手推动。

此前，李飞飞也曾短暂进入工业界，出任谷歌副总裁即谷歌云AI首席科学家。她一手推动了谷歌AI中国中心正式成立，这是Google在亚洲设立的第一个AI研究中心。并带领谷歌云推出了一系列有影响力的产品，包括AutoML、Contact Center AI、Dialogflow Enterprise等。

今年，李飞飞宣布创办空间智能公司World Labs，公司成立不到4个月时间，估值突破10亿美元。

所谓空间智能，即“视觉化为洞察；看见成为理解；理解导致行动”。

吴佳俊，现任斯坦福大学助理教授，隶属于斯坦福视觉与学习实验室（SVL）和斯坦福人工智能实验室（SAIL）。

他在麻省理工学院完成博士学位，本科毕业于清华大学姚班，曾被誉为“清华十大学神”之一。

同时，他也是李飞飞创业公司World Labs的顾问。

参考链接：
[1]https://arxiv.org/abs/2411.04998v1
[2]https://www.worldlabs.ai/team
[3]https://keshik6.github.io/

（首图来源：壹图网）

你“在看”我吗？

http://mp.weixin.qq.com/s?__biz=MzI1Mjc2NjkwMg==&mid=2247515010&idx=1&sn=20b38d538fc270ddd1bb1775ee8ad9cf

AI星球，提供人工智能资讯

最新文章

大疆和宁德，都在悄悄开发机器人

这届秋招生，在银行AI面试中尴尬致死

智算中心太“多”，大模型不够用了

腾讯杰出科学家刘威已离职，为混元大模型技术负责人之一

昆仑万维推出"天工大模型4.0"4o版，实时语音对话助手Skyo将于12月上线

OpenAI“23位叛将”出走创业，融资近百亿！华人科学家约占1/3

一朝成名，一夜破产！这家谷歌前高管创立的AI公司突然宣布倒闭

黄仁勋：英伟达对AI的理解和布局

Scaling Law遭遇瓶颈，OpenAI被曝押注智能体“Operator”

孙正义首次透露曾三次尝试买下英伟达

第一家被AI摧毁的巨头出现了：这家教育公司股价暴跌99%

AI人形机器人作画，一幅卖了800万

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

奥特曼专访自曝OpenAI掌握AGI密钥，2025年降临！

老黄还是不死心：英伟达明年再次杀入PC市场

对话李开复：先不谈AGI梦想要接地气、落地为王

每帧都是AI实时生成的，全球首款AI游戏问世了！

当AI搜索开始赚钱养家

L4级自动驾驶全栈解决方案提供商元戎启行完成1亿美元C1轮融资

谷歌Agent首次发现真实世界代码漏洞！

刚刚！ChatGPT正式成为AI搜索，免费可用

Runway CEO：AI公司的时代已经结束了

马斯克：脑机接口植入物可拆卸，手术10分钟完成，价格相当于一部手机

OpenAI语音转录工具被曝严重幻觉：转录100小时，一半儿在瞎扯

AI招聘“作弊”逗笑马斯克，在简历加一句话就让面试邀约涨四倍

比尔·盖茨认证的AI领域最牛大佬，发布新20年的AI预言

苹果AI落后两年？CEO库克回应来了，“不抢首发，只做最好”

“AI微信”，来了？！！

诺奖得主最新万字访谈：视AI为普通技术错误，AGI还差2到3项重大创新

大厂做AI，卷到哪儿了？

巨头抢布局，VC狂撒钱，为了能让「AI读心」这些公司卷疯了

Anthropic CEO大胆预言：人类将自主掌控外貌，寿命长至150岁！

放弃造车之后，苹果又对自动驾驶说再见

OpenAI惊天剽窃！20岁创始人自曝代码结构被抄袭，多智能体Swarm陷争议

高瓴创投，领投一家机器人感知技术公司

ChatGPT幕后大佬、o1推理模型作者官宣离职！

杀疯了！诺贝尔又把化学奖颁给AI大模型，谷歌成最大赢家

人工智能学者拿下诺贝尔物理学奖，意料之外还是情理之中？

下一个 ChatGPT？谷歌这款AI应用凭什么在一年后爆红

AI音频成诈骗神器！律师父亲险被骗走21万，3秒原声即可克隆声音

OpenAI“史上最大”融资轮，难了

地表最强全息AR眼镜问世！Meta十年绝密豪赌烧10亿

OpenAI突发高层人事变动！CTO宣布将离职

很马斯克！特斯拉Robotaxi不颠覆网约车，颠覆公交车

全文来了！OpenAI CEO奥特曼谈智能时代：我们可能在“几千天内”拥有超级AI

GPT-4o能玩《黑神话》！精英怪胜率超人类，无强化学习纯大模型方案

Kimi创始人杨植麟最新分享：关于OpenAI o1新范式的深度思考

阿里CEO吴泳铭：AI最大的想象力不在手机屏幕，而是改变物理世界

马斯克盯上了盲人，Neuralink下一代脑机接口产品获批

“AI教母”李飞飞新公司启航，已融资2.3亿美元“3个月”速成独角兽

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉