如今的智能体，已经像人一样「浏览」视频了，国内就有

科技 2024-11-22 12:29 北京

机器之心发布

机器之心编辑部

当你正在观看一部紧张刺激的动作电影，忽然好奇：

“那个角色到底是在哪一集说的那句话？”

“这里的背景音乐是什么？”

又或者在一场足球比赛中，你错过了那个决定性的进球，却又想再次回放。诸如此类的需求，如果仅凭人力寻找，无疑存在极大的工作量。

但是 AI 能够为机器配置双眼与大脑，让它们能够看懂视频、理解剧情，对于普通人来说，这不仅是提高了搜索效率，更是扩展我们与数字世界的互动方式。

英伟达最新发布的 NVIDIA AI Blueprint 希望帮助人们解决这一问题。这是一种预训练的、可自定义 AI 工作流，他为开发者构建和部署用于典型用例的生成式 AI 应用程序提供了一套完整的解决方案。

比如在英伟达提供的试用界面中，你可以选择三个视频片段中的一个进行内容问答。

在几轮测试过后，我们发现 Blueprint 对视频问答还是有不错的效果的。你可以提问某个事件发生的时间，也可以提问某个对象的状态。

例如当我们提问 “工人在什么时候掉落了箱子”，Blueprint 可以正确的回答出时间区间。二类似于 “叉车往哪个方向开” 这种基于连续过程的问题，Blueprint 也可以轻松应答。

不过对于某些细节，例如 “谁捡起了掉在地上的箱子”，Blueprint 则给出了错误的答案。

尤其令人遗憾的是，在试用过程中我们不断遇到流量限制，无限验证等问题，试用体验可以说一言难尽。并且目前 Blueprint 仍然处于早期申请使用制阶段，没有办法快速进行使用。

Blueprint 之外，我们还有什么选择？

经过一番搜索和调研，我们在 Github 上发现了 OmAgent 这个项目，这是一个多模态智能体框架，提供了同样强大的视频问答功能。

项目地址：https://github.com/om-ai-lab/OmAgent

OmAgent 是什么

OmAgent 是一个开源的智能体框架，支持简单快速地面向设备进行智能体系统的开发，为智能手机、智能可穿戴设备、智能摄像头乃至机器人等各类硬件设备赋能。OmAgent 为各种类型的设备创建了一个抽象概念，并大大简化了将这些设备与最先进的多模态基础模型和智能体算法相结合的过程，使每个人都能基于设备建立最有趣的 AI 应用。

OmAgent 的设计架构遵循三个基本原则：

1. 基于图的工作流编排，支持分支、循环、并行等复杂逻辑操作；

2. 原生多模态，提供对音视图文等多种模态数据的支持；

3. 设备中心化，提供便捷的设备连接和交互方法。

简单来说，开发者可以基于 OmAgent 设计开发基于图工作流编排的面向设备的原生多模态智能体。这里的设备不光包含智能手机，智能可穿戴设备（智能眼镜等），智能家居，还包括命令行以及 web 端，开发者只需要专注于智能体本身，而不用分神处理设备。

OmAgent 项目里提供了 6 个示例项目，由浅入深展示了如何搭建一个智能体的完整过程，其中视频理解智能体工作流被 EMNLP 2024 主会收录，实现了和 Blueprint Demo 相似的功能。

OmAgent 表现如何？

根据项目文档只需要进行简单的配置就可以将 OmAgent 部署运行在本地环境。我们首先对 Blueprint 提供的测试视频进行预处理，在这个阶段视频会被分解为若干个片段，每个片段会被大模型进行总结，并向量化存储在数据库中。接下来使用之前的问题对 OmAgent 进行测试，可以看到智能体可以正确定位事件以及发生的时间。

Q: When did the worker drop the box?

Q: Which direction did the forklift go?

Q: Who picked up the box that fell on the ground?

接下来我们进行更复杂的测试，OmAgent 可以支持音频信息以及超长视频索引。我们选取了最近大火的剧集《双城之战》第二季第一集作为素材，基于其中的画面和剧情进行提问。

Q: 凯特琳收到的钥匙代表了什么？

Q: 凯特琳和蔚在争执些什么？

Q: 视频最后几个议员在讨论什么？

Q: 议员开会的时候谁闯入了进来？

可以看到，即使面对如此复杂的视频素材，OmAgent 依然可以游刃有余。

除了视频问答之外，OmAgent 的最大特点是可以将智能体直接应用在硬件设备上，我们也对此进行了测试。使用项目提供的 app，我们可以运行示例项目中的穿衣搭配推荐智能体。智能体会根据你的需求，以及你已有的衣橱信息，为你推荐合适的穿衣建议。在这个过程中智能体会和用户进行多轮沟通以确定用户需求，并最终返回最合适的搭配。

如果你也刚好试用过 OmAgent，欢迎在评论区交流。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650943953&idx=1&sn=7de231236520ae157096327d5722d684

机器之心

专业的人工智能媒体和产业服务平台

最新文章

如今的智能体，已经像人一样「浏览」视频了，国内就有

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

上交大o1复现新突破：蒸馏超越原版，警示AI研发"捷径陷阱"

大模型不会推理，为什么也能有思路？有人把原理搞明白了

全球十亿级轨迹点驱动，首个轨迹基础大模型来了

扣子OpenAPI突进智能语音战场！点满低延时、定制化、随时打断和音色克隆技能（内测开启！）

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

诺奖得主哈萨比斯新作登Nature，AlphaQubit解码出更可靠量子计算机

神级项目训练GPT-2仅需5分钟，Andrej Karpathy都点赞

NeurIPS 2024 | 水印与高效推理如何两全其美？最新理论：这做不到

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

室温超导学术不端、多次Nature撤稿，这位印度裔学者被大学解雇

德国科学家激进观点：意识是虚拟的，存在于大脑构建的梦中

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

登上Nature的AI芯片设计屡遭质疑，谷歌发文反击，Jeff Dean：质疑者连预训练都没做

高通的自研架构芯片，正在整合生成式AI世界

发力了，Mistral对标ChatGPT全面升级le Chat，还祭出超大杯多模态模型

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

取人类与大模型之长，人机协作式智能软件开发框架AgileGen来了

面向代码语言模型的安全性研究全新进展，南大&NTU联合发布全面综述

精度与通用性不可兼得，北大华为理论证明低精度下scaling law难以实现

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

可以实现零代码开发的OPPO智能体平台，到底强在哪？

继良品率低后，英伟达Blackwell又出过热问题，说好的明年初发货呢？

NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强？北大、MIT团队给出理论解释

对标o1，Kimi放出了最能打的国产模型

怎样保证你不是AGI独裁者？马斯克为何退出OpenAI？早期邮件公开了

从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，照样能跑酷

扩展测试时计算是万能的吗？Scaling What成为关键

突破无规则稀疏计算边界，编译框架CROSS数倍提升模型性能

谁能进入下一轮？具身智能「练习生」的技术储备和商业路径有何异同？

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

LeCun 的世界模型初步实现！基于预训练视觉特征，看一眼任务就能零样本规划

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

率先解决多类数据同时受损，中科大MIRA团队TRACER入选NeurIPS 2024：强鲁棒性的离线变分贝叶斯强化学习

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

大模型时代需要什么样的安全水位？火山方舟首度公开「会话无痕」技术细节

陶哲轩：计算机通用方法，往往比深奥的纯数学更能解决问题

Claude都能操纵计算机了，吴恩达：智能体工作流越来越成熟

Make U-Nets Great Again！北大&华为提出扩散架构U-DiT，六分之一算力即可超越DiT

NeurIPS 2024 Spotlight | 如何操纵时间序列预测结果？BackTime：全新的时间序列后门攻击范式

视觉模型学会LLM独门秘籍「上下文记忆」，迎来智能涌现的大爆发！

国内外六所高校、三家企业的AI人才招聘需求

谷歌2024博士奖学金公布，KAN作者刘子鸣等数十位年轻华人学者入选

穹彻智能-上交大最新Nature子刊速递：解析深度学习驱动的视触觉动态重建方案

外媒：OpenAI 、Anthropic、谷歌新模型表现均不及预期

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉