首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

智谱AI的AutoGLM后，Google和微软也下场来做“贾维斯”了。

文摘 2024-11-03 17:24 广东

昨天，微软忽然发布了一个新的模型，能够用于网页自动化操作。

他们也正式开卷跟智谱AutoGLM一样自主人工智能了。

而前天，我也在The Information网站上看到一个消息：

标题Google Preps AI That Takes Over Computers，翻译过来就是：

谷歌准备推出接管计算机的人工智能。

上周三Claude、周五智谱AI、周末Google，然后微软。

短短一周内，已经有四个公司爆出来要发布类似的产品了，其中三个已经悄悄发布产品：Anthropic的Claude，智谱的AutoGLM和微软的OmniParser。这些产品的能力有目共睹。

Goolge虽然也只是个爆料，但是大概率今年就能出来，非常心急，想把坑先占上。

而且，我知道的消息是，OpenAI内部肯定也在做，就看什么时候掏出来了。

二级市场对于这种自主人工智能，反馈也非常的正。上周五智谱的AutoGLM出来之后，在金融圈直接爆了，连智谱AI概念股都出来了。

自主人工智能，好像瞬间点燃了AI圈的热情。

又开启了新一轮的用户心智的抢占。

毕竟刚刚开卷，哪家最早发，哪家确实就是会有优势。

不过自主人工智能的热度确实有点超乎了我的想象。

不过也能理解，类似于这种你发个指令他就会全自动化去处理的AI，才符合我们对人工智能的真正的期待，才有一点，那种AI变成现实的感觉。

现在的AI，坦率的讲，虽然有一些智能，但是远远离不开人工，完全没有达到解放双手的目的，绝大多数时候都是“人工”+“智能”。

而且对于各家AI公司来说，底层模型的能力已经卷到一定的瓶颈了，看现在大模型的一些榜单，大家也一点不关心了。

需要一些更科幻的，更新鲜的刺激。

所以这个时候，自主人工智能过来接棒，就很香。

而自主人工智能完成任务的一个大致流程是：

理解用户的需求-》系统规划-》调用工具执行任务-》目标完成

这个流程看起来其实不复杂。

一年多前，就有人在做了，最经典的那个项目，github上狂揽十六万星的噬星狂魔AutoGPT。

但是AutoGPT到后面开始沉寂，其实有个很大的问题，就是完全基于大语言模型做的。

这个就有很多的局限性。

比如，纯粹的语言模型只能处理文本，而现在很多任务比如点外卖，打车都需要读取屏幕信息。大语言模型本身不能直接处理，往往需要多加一步将图片转换为文本输入。

而图片转换为文字后，对于大语言模型又会丢失很多信息。

好比你被蒙着双眼，只是语言告诉你屋里有些什么，无论语言描述多么细节，你想象力多么丰富，脑海里都无法还原得与真实一模一样。

模型的可控性比较差，模型就容易懵逼，导致任务中断，或干脆给你随机发挥，听天由命。

所以AutoGPT能做到的事情还是比较少，效果也没有那么好，慢慢就淡出大家的视野了。

直到最近这波新的自主人工智能浪潮。

但是我也挺好奇一个问题，就是这将近一年半的时间，自主人工智能为啥都什么消息，直到最近，才开始密集发声？

是各家都在卷其他赛道，无暇顾及，还是都在做，只不过遇到了瓶颈，最近才有所突破？

我就去密集咨询几家国内AI大厂的朋友。

其实大家口径也都出奇的一致。

就是大家都在稳步推进，只是最近刚好到了一个可以拿出来用的时间点，而且大家的进展其实也没有差异太多。

而这一年半，自主人工智能没咋出现在公众视野，看起来进展很缓慢的样子，其实有两个最主要的原因。

多模态模型不够成熟。

2. 缺太多行为数据了。

第一个点其实很好理解。

就是你不能让模型蒙着眼睛去规划任务，他都不知道屏幕上面的元素长啥样，纯粹靠文字来描述，这个效果肯定很差。

所以推进这块，必须要有很强的多模态模型的基座能力作为基础。

而多模态的模型，训起来其实就比纯粹的大语言模型复杂多了。数据量、资源的消耗都是指数级增长。本身就是慢，连Claude都是今年3月才上线多模态能力的。

所以在模型基座上，就是会很拖沓，这个是客观的事实，不过最近几个月，大家的多模态模型已经基本都能用了，所以基座模型层面，其实就是刚好到了一个节点。

去调研的智谱的大佬，也给出了我们同样的答案。

第二个原因，其实就是数据上。

虽然互联网包含大量的人类知识，但主要由静态信息（图片、文字）组成，这些静态信息无法反应一些动态的过程。

比如，模型可以学习理解外卖界面上的脆皮炸鸡是多少钱。因为网上有大量的静态数据教会它钱是什么、能干什么。模型可以理解“钱是能买到炸鸡的”。

但缺乏动态数据教它怎么“找到美团App，点开App，如何搜索脆皮炸鸡，然后点击下单”的这样一个动态过程。

这个其实就跟o1的那套推理的路很像，模型不仅要知道结果，还要知道其中的过程。

整个自主人工智能的操作路径，其实就是一个多模态的巨型思维链。

o1和claude给大家打了个样，证明了强化学习这条路是对的，那强化基座模型的推理能力是一个应用方向，而做这种真正的Agent，又是一个强化学习应用的典型场景。

一个偏基模，一个偏应用。

而这套通过强化学习补充数据的范式，其实也就是今年3、4月以后，才逐渐形成的业内共识。

所以，着就能解释，为什么过去一年半的时候，这种自主人工智能一直没啥进展，直到最近才密集发声，其实就是多模态基座和数据的原因。

最后，再简单说说AutoGLM这种能力，大概是怎么实现的，具体细节他们也都没透露，我只能根据我的调研结果，进行一些猜测，不过AutoGLM团队最近应该会发个技术报告，到时候可以关注一下。

比如一个最简的例子，说：微信发送“今天疯狂星期四V我50”的消息给鲜虾包。

那么大模型拿到任务后，会一边看当前屏幕的界面，一边利用思维链一步一步推理：

任务可以在当前的UI界面下继续进行吗？是的话进行第2步，否的话就会思考“应该打开什么界面”然后进行下一步动作。
分析当前UI和最终任务的关系，分解成一步一步的动作”

现在首先需要填充输入框“今天疯狂星期四V我50”
然后点击“发送”

然后思考问题是否最终被解决？如果是的话结束，如果否的话回到第1步继续循环。

这一切，都建立在模型能看到屏幕，能理解屏幕上那些乱七八糟的元素的基础上。他不仅需要复杂的规划能力，还需要直到这个是按钮，这个是单选控件，这个是表单，这个是开关等等。

而滑动这个操作，反而是最麻烦的，人看起来很简单，是因为人对于UI界面，已经有数十年的经验了，滑动本身就是预测的过程，我们根据我的经验，大概能猜到这一屏如果没有我要的信息，那他可能是在下一屏。

所以我们会进行一个滑动操作，但是对于AI来说，这个预测，反而是最难的。

所以后面，需要继续灌数据，灌大量的行为性数据，形成泛化能力。

让AI，有跟人类一样的，UI常识，和对交互的可预测性。

虽然目前不是那么完美。

Claude的Computer Use和智谱的AutoGLM，都有自己的一堆问题，也远远没到一个算是完美产品的地步。

但这毕竟也只是刚刚开始。

当一切路径明确。

两个月时间。

可能，一切就变天了。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～谢谢你看我的文章，我们，下次再见。

>/ 作者：卡兹克、Qodicat

>/ 投稿或爆料，请联系邮箱：wzglyay@gmail.com

AI技术最新进展、发展趋势、研发经验、从业经验

最新文章

大语言模型图形用户界面智能体全面综述：背景、架构、数据、模型、评估、应用、挑战

WWW24-大语言模型个性化多模态生成技术：从千篇一律到量身定制

AI Agents 技术栈图谱与分析

智能体信息检索技术：定义、应用、挑战、趋势

学习计算广告，我为什么从推荐系统转向计算广告？

大众汽车，会成为下一个诺基亚吗？

2025年生成式人工智能革命：八大趋势开启智能新纪元！

大推理模型Marco-o1详细解读：开启开放式问题解决新能力

AI在广告投放上的应用正在大爆发

面向推荐系统的多模态技术综述：模态增强、表征迁移、模型微调、提示调整、个性化内容生成

面向检索增强生成应用的最佳搜索和检索技术

历史性一刻！在东南亚，OPPO超过三星

多模态大模型能力评测基准全面综述：理解、推理、生成、应用、趋势

LLM-ESR@NeurIPS 2024: 大语言模型破解推荐系统的长尾难题

17岁高中生写了个神级Prompt，直接把Claude强化成了满血o1。

个性化大语言模型全面综述：背景、定义、分类、基础、技术、评估、数据、应用、挑战

京东探索：大模型在电商搜索中的生成式检索与优化实践

秘塔AI上线"知识库"，他们直接超进化成AI搜索完全体了。

迈向下一代大语言模型驱动的推荐系统：综述与展望

抖音集团数据血缘深度应用：架构、指标与优化实践

川普归来与战后国际秩序的瓦解

多模态移动智能体基础与最新趋势调研：评估基准、核心组件、技术路线、发展趋势

目标导向交互式智能体复杂任务调研：背景、分类、范畴、评估、趋势

川普上台后的赢家和输家

大模型图形用户界面操作智能体(GUI Agents)综述：数据、架构、分类、应用、挑战

AutoGLM-图形用户界面操作自主基础智能体技术详解

川普归来与战后国际秩序的瓦解

苹果语义索引(Semantic Index)技术调研：关键技术、隐私安全、应用效果、发展趋势

解码智能推荐：多模态大模型在网易云音乐的创新应用

智谱AI的AutoGLM后，Google和微软也下场来做“贾维斯”了。

小红书搜索：生成式检索的探索与实践

「深度」学习计算广告，我为什么从推荐系统转向计算广告？

AI自动操作电脑：AutoWebGLM-大语言模型的Web导航智能体技术详细翻译解读

算法工程师的未来之路：大模型还是搜广推？

未来已来：智谱AI的AutoGLM，让智能手机变身你的私人智能体

RLChina2024-AI Agent业界进展和发展趋势：简史、进展、难题、分级、趋势

揭秘Llama 3.1：我如何消化这份92页的AI大模型技术盛宴

朝韩冲突和中东局势

UniIR：通用多模态信息检索模型训练和评测标准

LECCR：多模态大语言模型增强的跨语言跨模态检索技术

黎以战争、美国大选和财政政策

检索增强生成(RAG)与相关技术综述：问题、分类、数据、模型、挑战

首个大推理模型(LRM) - OpenAI o1规划任务能力评测

黎以战争、美国大选和财政政策

大语言模型统一偏好学习技术综述：定义、数据、反馈、算法、评估、趋势

MMSearch：大型模型多模态搜索引擎

2024，平台型互联网公司的增长打法变了

开源语音实时交互新突破：LLaMA-Omni实现大语言模型无缝语音交互

Google广告点击率预估实践经验总结：在线学习、内存优化、模型评估、置信估计、校准预测、特征管理

从穷小子到公司估值10亿，清华小哥的“双杠杆”方法论

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉