首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
刚刚,OpenAI最强竞对官宣:大模型可以使用电脑了
学术
2024-10-23 00:28
北京
刚刚,OpenAI 最强竞对 Anthropic 宣布:
现在,Claude 可以使用电脑了
。
据介绍,最新版本的 Claude 3.5 Sonnet 在通过适当的软件设置运行后,可以
按照用户的指令在电脑屏幕上移动光标,点击相关位置,并通过虚拟键盘输入信息,模拟人们与电脑进行交互的方式
。
Anthropic 认为,这项技能--目前处于公开测试阶段--代表了人工智能(AI)领域的重大突破。
在最新博客文章中,他们分享了在开发计算机使用(computer use)模型过程中的一些研究心得,以及如何让这些模型更加安全。
为什么要开发 computer use?
为什么这项新功能很重要?大量的现代工作都是通过计算机完成的。让人工智能能够像人类一样直接与计算机软件进行交互,将开启大量应用,而这些应用对于目前的人工智能助手来说根本无法实现。
在过去几年里,强大的人工智能发展已经取得了许多重要的里程碑式成果--例如,能够进行复杂的逻辑推理,能够看到和理解图像。下一个前沿领域是计算机应用:人工智能模型无需通过定制工具进行交互,而是可以根据指令使用任何软件。
研究过程
Anthropic 表示,他们以前在工具使用和多模态方面的工作为这些新的计算机使用技能奠定了基础。操作计算机需要具备查看和解释图像的能力,这里指的是计算机屏幕上的图像。它还要求推理如何以及何时根据屏幕上的内容执行特定操作。结合这些能力,他们训练 Claude 解读屏幕上的内容,然后使用可用的软件工具执行任务。
当开发人员让 Claude 使用一款计算机软件并赋予其必要的访问权限时,Claude 会查看用户可见内容的屏幕截图,然后计算光标需要纵向或横向移动多少像素才能点击正确的位置。训练 Claude 准确计算像素至关重要。如果没有这项技能,模型就很难下达鼠标指令--这就好比模型在回答“‘香蕉’这个词中有多少个 A?”这样看似简单的问题时经常会感到吃力一样。
令人感到惊讶的是,Claude 在接受了计算器和文本编辑器等几款简单软件的 computer-use 训练后(出于安全考虑,模型在训练期间无法访问互联网),竟然能够迅速地掌握这些技能。结合 Claude 的其他技能,这种训练使它具备了非凡的能力,能够将用户的书面提示转化为一连串的逻辑步骤,然后在计算机上进行操作。他们观察到,该模型甚至会在遇到障碍时进行自我纠正并重试任务。
虽然他们在取得初步突破后很快就取得了后续进展,但这需要大量的尝试和错误才能实现。Anthropic 的一些研究人员指出,开发 computer use 模型的过程与他们初入人工智能领域时想象的“理想化”人工智能研究过程非常接近:不断迭代,反复回到绘图板(drawing board),直到取得进展。
目前,Claude 是像人一样使用计算机的 SOTA 模型,即通过观察屏幕并采取相应行动。在 OSWorld 为测试开发者让模型使用计算机的尝试而创建的一项评估中,Claude 目前的得分率为 14.9%。尽管远未达到人类水平(一般为 70%-75%),但却远远高于同类产品中排名第二的人工智能模型的 7.7%。
安全使用计算机
人工智能的每一次进步都会带来新的安全挑战。computer use 主要是降低人工智能系统应用其现有认知技能的门槛,而不是从根本上提高这些技能,因此 Anthropic 对 computer use 的主要关注点是当前的危害而非未来的危害。他们发现,更新后的 Claude 3.5 Sonnet(包括其新的 computer use 技能)仍处于人工智能安全等级 2 级,也就是说,它并不需要比 Anthropic 现有的安全和安保措施更高的标准。
当未来的模型因存在灾难性风险而需要人工智能安全等级 3 级或 4 级保障措施时,computer use 可能会加剧这些风险。Anthropic 判断,在模型还只需要人工智能安全等级 2 的保障措施时,现在就引入 computer use 可能会更好。这意味着,他们可以在风险过高之前开始处理任何安全问题,而不是在风险更为严重的模型中首次添加 computer use 功能。
因此,Anthropic 的信任与安全团队对新的 computer use 模型进行了广泛的分析,以找出潜在的漏洞。他们发现的一个问题是“提示注入”--这是一种网络攻击,即向人工智能模型输入恶意指令,使其推翻先前的指令或执行偏离用户初衷的意外操作。由于 Claude 可以解读来自联网计算机的屏幕截图,因此有可能接触到包括提示注入攻击在内的内容。
使用公开测试版 Claude computer-use 版本的用户应采取相关预防措施,将此类风险降至最低。作为开发人员的资源,Anthropic 在参考实现中提供了进一步的指导。
与任何人工智能功能一样,用户也有可能故意滥用 Claude 的计算机技能。Anthropic 开发了分类器和其他方法来标记和减少这类滥用。
Anthropic 表示,根据他们对数据隐私采取的标准方法,默认情况下,他们不会对用户提交的数据(包括 Claude 收到的任何截图)训练他们的人工智能生成模型。
computer-use
的未来
Computer use 是一种完全不同的人工智能开发方法。到目前为止,LLM 开发人员一直在让工具与模型相匹配,创造定制环境,让人工智能使用专门设计的工具来完成各种任务。现在,Anthropic 可以让模型适应工具-- Claude 可以适应人类日常使用的计算机环境。他们的目标是让克劳德能够像人一样使用已有的计算机软件。
当然,还有很多事情要做。Claude 使用计算机的速度仍然很慢,而且经常出错。人们在计算机上经常做的许多操作(拖动、缩放等),Claude 还无法尝试。Claude 的屏幕视图具有“翻书”的性质--截图并将它们拼凑在一起,而不是观察更细粒度的视频流--这意味着它可能会错过短暂的操作或通知。
Anthropic 表示,即使在为今天的发布录制 Computer use 演示时,他们也遇到了一些有趣的错误。例如,Claude 不小心点击了停止长时间屏幕录制,导致所有镜头丢失,以及 Claude 突然中断了编码演示,开始浏览黄石国家公园的照片。
Anthropic 预计,Computer use 将迅速改善,变得更快、更可靠,对用户想要完成的任务更有用。对于软件开发经验较少的人来说,它也将变得更容易实现。
原文链接:
https://www.anthropic.com/news/developing-computer-use
编译:学术君
如需转载或投稿,请直接在公众号内留言
http://mp.weixin.qq.com/s?__biz=Mzg4MDE3OTA5NA==&mid=2247592547&idx=1&sn=28c4fe3c5d96802a1acc933b2543a7c7
学术头条
致力于学术传播和科学普及,重点关注AI4Science/大模型等前沿科学进展。
最新文章
国防科技大学推出 AI 材料科学家 MatPilot;Anthropic 提出 LLM 越狱缓解新方法|大模型日报
Science最新封面:AI大模型跨越物种边界、解码生命“密码全书”,基因组学进入全新时代
深度访谈|AI 如何改变预测科学?看看统计学家怎么说
AI斩获6枚金牌!华为Kaggle大师级智能体诞生,自主解决数据科学难题
OpenAI官方指南:12条实用建议,手把手教学生用ChatGPT写作
Stability AI出官方教程了,带你轻松玩转Stable Diffusion 3.5
哈佛、MIT提出「精度感知」Scaling Laws;首个金融LLM综合双语基准|大模型日报
OpenAI首位投资者《时代》刊文:AI将重新定义「人类的意义」
华为科学智能体 Agent K v1.0已达 Kaggle 大师水平;Meta团队提出自一致性偏好优化ScPO|大模型日报
终于,AlphaFold3 开源了!代码免费下载,可用于非商业用途
OpenAI大改下代大模型方向,scaling law撞墙?AI社区炸锅了
清华、国科大、智谱团队提出LongReward:利用AI反馈改进长文本大语言模型
创纪录!首幅人形机器人绘制作品拍出108万美元;王慧文回归美团,带队探索AI应用|一周热门
智谱「新清影」是怎样炼成的?CogVideoX+CogSound 技术详解
AI 的「phone use」竟是这样练成的,清华、智谱团队发布 AutoGLM 技术报告
清华、北大团队推出「安卓智能体」训练评估新框架 AndroidLab
Nature重磅:AI化学家再升级!大幅提升实验效率,推动化学合成进入“智能化”新阶段
研究实锤:别让大模型「想」太多,OpenAI o1准确率竟下降36.3%
清华、北大团队推出「安卓智能体」训练评估框架AndroidLab;Meta提出视频生成加速方法AdaCache|大模型日报
科研人神器!接入5000万篇正版文献,知乎直答「专业搜索」太能打了
Meta 推出全新视频扩散模型 MarDini;周靖人团队:扩散 Transformer 的上下文 LoRA|大模型日报
NeurIPS 2024|清华、加州理工重磅研究:强化自训练方法 ReST-MCTS*,让大模型持续“升级”
港大打造 LightRAG:让大模型 RAG 高效又便宜
深夜重磅!ChatGPT可以“AI搜索”了,但并不完美
OpenAI最新研究:「打假高手」大模型事实性基准SimpleQA来了,已开源
小语言模型SLM综述|大模型论文日报
大模型已过时、小模型SLM才是未来?苹果正在研究这个
超出人类思维的「系统0」:AI正在创造一种新的思维方式吗?
中国AI大模型出海,如何应对美国管制?最新报告给出了5个建议|附下载链接
Nature封面:“揭穿”一切!Google DeepMind为AI大模型添加了“隐形指纹”
困扰18亿人的“全球干旱”,被AI更准确预测了
OpenAI又有高管走了,还发了篇长文
前OpenAI研究员:我必须离开;a16z创始合伙人:当前AI发展就像“卖大米”|一周热门
刚刚,智谱推出情感语音模型 GLM-4-Voice,懂你的情绪,人人可用
不止 computer use,AI 的「phone use」也来了
今天,把电脑交给大模型
清华、腾讯团队提出预训练语言模型知识蒸馏框架 MiniPLM|大模型论文日报
来了!Stability AI 推出 Stable Diffusion 3.5
深夜重磅!Anthropic 推出 Claude 3.5 Sonnet 升级版和 Claude 3.5 Haiku
刚刚,OpenAI最强竞对官宣:大模型可以使用电脑了
DeepMind创始人最新访谈:今年的诺贝尔奖,就像是AI的分水岭
微软提出新型注意力机制SeerAttention;清华、智谱团队提出“预训练蒸馏”|大模型日报
OpenAI o1 模型推理模式的比较研究|大模型论文日报
哈佛重磅突破!AI确定17000多种疾病候选药物,罕见病“孤儿药”不再遥远?
132年未解开的李雅普诺夫函数谜题,被Symbolic Transformer攻克了
Meta被斥:他们污染了“开源”一词;李开复:零一万物绝不放弃预训练模型|一周热门
“AI调解员”登上Science!Google DeepMind打造,“劝架”水平远超人类
Meta提出思维偏好优化TPO;谷歌推出可穿戴基础模型LSM|大模型论文日报
美国FDA:警惕AI大模型带来的未知问题,亟需监管创新
3B 超越 7B,Mistral AI 推出端侧模型 Ministral 3B 和 8B
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉