谷歌版贾维斯意外泄露！自主上网购物填表不在话下，“钢铁侠 ”成真指日可待？

科技 2024-11-08 13:25 辽宁

整理 | 华卫、核子可乐

一场意外泄露事件后，谷歌这位科技巨头无意之中证实了其先进人工智能“Jarvis”的存在。据了解，Jarvis 能够访问网站、在获得用户许可的情况下进行在线购物，甚至填写表格。基于 Chrome 平台的 AI，也将是这款浏览器自 2008 年推出以来规模最大的功能升级。

不久前，谷歌意外泄露了最新 AI 发展成果 Jarvis 的“内部预览版”。Jarvis 原本是《钢铁侠》电影中 Tony Stark 的人工智能助手的首字母缩写词，全称为 “Just Another Very Intelligent System”。就像《钢铁侠》电影一样，Jarvis 应该是一个代理型人工智能，即只需要很少或不需要人类输入就能执行任务的自主系统。

被泄露的文件最初被发布在谷歌自己的云平台之上，在存留期间，其内容显示谷歌打造了一款能够浏览互联网并自主检索信息的 AI 智能体。

Jarvis 或将接管 Chrome 浏览器

据外媒报道，该 AI 智能体于本周二在 Chrome 浏览器网络商店中作为扩展程序短暂提供下载，并被描述为 “与你一起上网的好伙伴”。

可惜的是，该扩展程序虽然可以下载，但需要某些用户无法绕过的访问权限。有人在该扩展程序被删除之前抢先完成了安装，但尚无法正常使用。当天晚些时候，该扩展程序已从网络商店删除。

Jarvis 无意中出现在 Chrome 浏览器网店上，证实了之前有关谷歌正在开发这一产品的报道。

10 月底，有外媒报道称，谷歌也正在开发一种可以通过简单命令来接管计算机的 AI 工具，该工具在内部被称为 Project Jarvis，能够代表用户浏览网页，并执行购买产品和预订航班等任务。

与依赖预加载数据的现有 AI 工具不同，Jarvis 能够搜索网络并为用户提供检索实时数据的能力，从而绕过传统搜索引擎。简而言之，它基本上接管了 Chrome 网络浏览器来为用户执行任务。

报道指出，该工具的工作原理是截取计算机屏幕的屏幕截图，并“在执行单击按钮或输入文本字段等操作之前对截图进行解读”，这与微软此前备受争议的 Recall 功能非常相似，尽管后者用于存储和检索用户的计算机行为（目前微软宣称该项目将“稍后”亮相，且最初只开放给 Windows Insider 计划成员）。

Jarvis 的功能似乎是谷歌 Bard AI 的延伸，可以将自然语言理解与高级数据检索功能相结合。这种向实时数据响应的转变也代表着传统聊天机器人的最新发展方向。传统聊天机器人往往受到训练数据的限制，因此只能根据特定日期之前的信息回答问题。

报道还提到出，该工具目前的反应速度有些慢，“因为模型在采取每个动作之前需要思考几秒钟”。这表明，Jarvis 可能还没有准备好进入黄金时段。当时的消息称，谷歌计划在 12 月公开推出 Jarvis，同时推出的还有最新版本的 Gemini 大型语言模型。

现在，有熟悉谷歌内情的消息人士表示，Jarvis 本打算在对外发布之前进行内部试点测试。然而，此番意外泄露让不少人猜测谷歌恐怕会提前正式发布的时间。

AI 智能体操控屏幕的未来将至

上个月，当 Anthropic 推出名为“计算机使用 ”的新功能，基本上可以接管用户的计算机来读取和编写 JavaScript 代码时，我们的认知从 “《钢铁侠》只是一部电影 ”变成了 “这正在发生”。现在，谷歌的 Jarvis AI 智能体似乎要让 “钢铁侠 ”幻想成真了。

只不过，Claude 是为程序员量身定制的，用于操作软件应用程序，而 Jarvis 与之不同，据说它是基于浏览器的，可以想象它将面向更主流的受众市场。

据外媒报道，OpenAI 也在开发这类自主 AI 智能体。此次谷歌 Jarvis AI 意外泄露事件就发生在 OpenAI o1 模型泄露的几天之后，后者同样意外曝光了一款能够分析图像、访问网络搜索结果及数据分析等工具的新推理模型，可能很快就会发展出更多的自主网页浏览功能。

几天前的 OpenAI 伦敦开发者大会上，Sam Altman 在与 20VC 创始人 Harry Stebbings 的对谈中，就对 AI 智能体进行了这样的定义：能够接受长期任务，且在执行过程中几乎不需要监督。他举例说，“假设不是让 AI 智能体给一家餐厅打电话订餐，而是让它同时联系 300 家餐厅，找出哪家最适合或者有优惠。我认为更有意思的是那种像一位聪明的资深同事一样，能与你在项目中真正协作的智能体。”

在最近的一次 Reddit AMA 中，OpenAI 首席产品官 Kevin Weil 也暗示道，ChatGPT 将首先具备向用户发送消息的能力，而为用户执行任务将是他们 “2025 年的一大主题”。

微软团队上月低调开源的 OmniParser，在 Hugging Face 上迅速大受欢迎的同时，似乎也预示着 AI 智能体操控屏幕的未来。OmniParser 是一款解析和识别屏幕布局的 AI 工具，能够提取文本、按钮和图标等重要信息，还可以将这些元素转换成结构化的数据，精准理解用户意图，可以帮助开发者自主创建用于操控电脑或手机界面的智能体。

并且，OmniParser 并不局限于网络浏览器或移动应用程序等特定的环境，它的目标是成为任何支持视觉的 LLM 与从桌面到嵌入式屏幕等各种数字界面进行交互的工具。据悉，GPT-4V 在使用 OmniParser 输出后，图标的正确标记率从 70.5% 提升至 93.8%。

此外，Apple Intelligence 也承诺通过其“屏幕感知”功能实现同样的功能。它会观察用户的活动并将发现输入到系统当中，以便下次以智能方式代替用户执行这些任务。

结语

对谷歌来说，提高工作效率和自动化某些琐碎的任务是其许多 AI 产品寻找杀手级用例的方向。谷歌也在 Workspace 应用程序中引入了生成式 AI 功能，包括谷歌 Docs（文档）、Gmail、Sheets（表格）和 Slides（幻灯片）。

而关于此次意外泄露的“内部预览版”Jarvis，近期已有不少类似可以通过简单命令来接管计算机的 AI 智能体出现在大众视线里。需要注意的是，随着这类 AI 驱动浏览变得愈发普遍，围绕数据透明度、访问私人内容和网络数据的道德使用引发的问题也可能进一步激化。

参考链接：

https://www.theinformation.com/briefings/google-accidentally-reveals-jarvis-ai-that-takes-over-computers

https://mashable.com/article/google-accidentally-leaked-new-ai-tool-browses-internet-for-you

https://www.tomsguide.com/ai/google-confirms-jarvis-ai-after-accidental-leak-heres-what-we-know

https://www.androidpolice.com/google-gemini-project-jarvis-ai-agent/

InfoQ 老友！请留步！极客邦 1 号客服上线工作啦！

后续我将通过微信视频号，以视频的形式持续更新技术话题、未来发展趋势、创业经验、商业踩坑教训等精彩内容，和大家一同成长，开启知识交流之旅

欢迎扫码关注我的微信视频号～

今日荐文

谷歌超过四分之一代码由AI生成失实？劈柴刚吹完牛，自家员工就来组团“打假”了

硅谷决战美国大选！ChatGPT、Copilot们都“闭嘴”了，Perplexity 狂“秀操作”翻车

姜萍阿里数学竞赛系老师提供帮助，学校老师被处分；英伟达取代英特尔被纳入道指；一个App实现人猪沟通 | AI周报

走近宋柔教授：78岁仍在科研前线，在语言学高校里做AI的计算语言学家

一键取代谷歌成默认搜索引擎！ChatGPT搜索功能深夜炸场，奥特曼加速将谷歌逼向死亡

你也「在看」吗？👇

http://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247626798&idx=1&sn=a17b9fb26b9392ae5facdb59abbfe0a2

AI前线

面向AI爱好者、开发者和科学家，提供大模型最新资讯、AI技术分享干货、一线业界实践案例，助你全面拥抱AIGC。

最新文章

仅4个多月RAG就进化到“一个新时代”了：成本降低到GraphRAG的0.1%

两位清华大牛联手带出的明星企业，摘得Robotaxi第一股，市值超360亿！

科技巨头重磅发力的 AI Agent，给了谁新出路？| 直播预约

泄露的 Sora 效果炸裂，还一次成型！OpenAI 白嫖丑闻闹大了，吃瓜网友看到了进化版模型

大模型让我们成了“提词狂魔”，未来开发者核心竞争力在哪里？

全员停发工资、高管跑路：被小米看上的智驾明星 IPO 三度败北，前员工吐槽“越做越赔钱”

Anthropic 工程师关于提示词工程的深入探讨

AI 杀死了程序员培训班：花 1.3 万美元学编程，却连面试机会都没有？

AI产品如何找到破局之道？秘塔 COO、B 站“王一快”在 AICon 带来答案！

孙宇晨花 624 万美元拍下一根香蕉；黄仁勋荣获港科大荣誉博士；70 多辆小米 SU7 自动泊车撞墙、撞柱 |AI周报

谷歌 AlphaChip 论文再被质疑，DeepMind 驳斥都没做预训练，顺带还揪出了“内鬼”？

强制销毁员工聊天记录！谷歌15年打造“隐瞒文化”：不要保留任何可能让我们难堪的东西！

Pokémon Go 公司构建大型地理空间模型，玩家不知不觉贡献了训练数据

ChatGPT 干掉了一家上市公司！千亿市值归零、10 多年 CEO 被迫离职，付费用户直呼上当

Mooncake 分离式推理架构创新与实践

营收翻倍、Blackwell芯片爆单，黄仁勋否认 Scaling Law 失效，但英伟达财报后股价还是跌了

“为什么说大模型可能是软件开发的死胡同？”

最大的 AI Agent 生态系统来了！微软推出适配 1800 种大模型的智能体，迈入自己的 Agent 时代

微软和清华大学为 LLM 提出了 DIFF Transformer 架构

粉丝福利 | 11 月 23 日，来一场边玩边赚钱的Party！

独家｜腾讯杰出科学家、混元大模型技术负责人之一刘威离职

Scaling Law，撞墙了吗？| 直播预告

全球超万亿使用量的热门数据库，首次被大模型揪出了严重漏洞

英伟达 Blackwell 芯片又又又曝问题！老黄大半年没搞定，微软们被迫换货、换方案

网易CodeWave：当低代码+AIGC 进入深水区，我们如何继续发展？

AI周报 | 月之暗面杨植麟回应近期争议；马斯克或遭调查，理由是“通俄”；小米汽车校招待遇曝光，一年可达 18 薪

通义灵码 SWE-GPT：从静态代码建模迈向软件开发过程长链推理

马斯克“当官”，硅谷大佬抢破头进 DOGE：零报酬、每周工作 80 个小时，录取率不到 1%

钉钉公布商业化核心进展：上半财年ARR远超2亿美元，6大新AI助理现已免费开放

Anthropic创始人访谈：不是因为Altman 与微软合作而离开OpenAI、Scaling Law不会撞墙、未来招聘将放缓

我们为什么不遗余力地举办 AICon？

助推“超级有用”的应用爆发，百度把开发门槛打下去了

续航超 4 小时、算力 550T，这款国产自研人形机器人让家务更轻松

AI 商业化落地难？百度“杀”出新增长

Mojo 作者 Chris Lattner：Mojo 不仅仅是一种 AI 语言

挨骂 6 个月后，DeepMind 急了：诺奖模型 AlphaFold 3 代码全网免费送，Nature 也发文力荐！

应用突破还是炫技噱头：大模型能否真正驱动行业升级？

天塌了，Scaling Law 已撞收益递减墙？OpenAI 在内，所有大模型都正遭遇巨大瓶颈

过去一年我开发 AI 视频编辑器的收获

一句话改图！字节豆包通用图像编辑模型 SeedEdit 上线测试

AI周报 | 字节弱化等级：不提倡称哥姐、隐掉职级性别；雷军或推小米驾校，1999元包训漂移？携程CEO：缩短工作时间或提高生育