首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

重磅！字节发布UI-TARS大模型，三句话搞定电脑操作！碾压GPT-4！

旅行 2025-01-23 00:56 北京

又一个能直接操控电脑的AI来了！

字节刚刚发布了UI-TARS，这是一个专门用来操控电脑界面的视觉语言模型。它不只是看懂屏幕那么简单，而是能像人一样思考、推理，并直接操作鼠标和键盘！

最强的是，在众多基准测试中，它都完胜GPT-4和Claude等对手。

在VisualWebBench上，72B版本达到了82.8%的准确率，超过了GPT-4的78.5%和Claude的78.2%。

这个模型最厉害的地方在于它的「一体化设计」。

不像其他工具那样需要复杂的配置和规则，UI-TARS把感知、推理和行动能力都整合在一个模型里，实现了真正的「端到端自动化」。

它能干什么？

简单来说：

智能理解界面：不管是文字、图片还是交互元素，都能实时识别和响应
统一行动空间：支持点击、长按、输入、滚动、打开应用等各种操作
多级思维模式：结合快速直觉和深度思考，能处理复杂任务
记忆功能：短期记忆保存当前任务上下文，长期记忆积累历史经验

字节同时发布了三个版本：2B、7B和72B参数规模的模型。

通过SFT（有监督微调）和DPO（直接偏好优化） 训练，让模型在10多个GUI代理基准测试中都达到了最好成绩。

更棒的是，这个模型还开源了桌面版应用！

只要简单下载安装，就能用自然语言控制你的电脑。比如「发送一条内容为『hello world』的推文」，或者「查看旧金山的天气」，通通都能自动完成。

UI-TARS的诞生，让我们离「AI助手真正理解并操作计算机」的目标又近了一大步。

它不仅能看懂界面，还能像人类一样思考和行动，这正是未来AI助手的发展方向。

快来试试让AI帮你操作电脑吧！

相关链接

项目代码：https://github.com/bytedance/UI-TARS
论文详情：https://huggingface.co/papers/2501.12326
模型地址：https://huggingface.co/bytedance-research/UI-TARS-72B-DPO
桌面应用：https://github.com/bytedance/UI-TARS-desktop

👇

👇

👇

👇

本文同步自知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容，并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

每天约监控6000 条消息，可节省约800+ 小时的阅读成本；
每天挖掘出10+ 热门的/新的 github 开源 AI 项目；
每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年，0.27元/天。(每+100人，+20元。元老福利~）

一是运行有成本，我希望它能自我闭环，这样才能长期稳定运转；
二是对人的挑选，鱼龙混杂不是我想要的，希望找到关注和热爱 AI 的人。

欢迎你的加入！

关注AGI 的沿途风景！

最新文章

从DeepSeek R1看推理模型的四种进化路线

对DeepSeek的五大误解！

重磅！Gemini 2.0全家桶发布：Flash免费用，Pro会写代码，还有一个便宜货

传言称Grok-3延迟！但马斯克仍手握最强算力

Deep Research 开源版来了！立省200美元

魔幻现实之：美国人下载DeepSeek 将坐牢20年？！

爆料：Anthropic 有比o3 更强的模型，但不敢放出来

Lex Fridman 最新播客：Deepseek与o3-mini，芯片管制与中美竞争、AI Agent与AGI……

华为突围：910C芯片性能达H100的60%！DeepSeek 已验证

OpenAI Deep Research上线：人类研究员失业倒计时？

基于o3-mini 的浏览器agent，打造属于自己的Operator

伯克利教授：AI思考的越多，越容易出错

o3-mini 的10 大疯狂应用案例！

指责DeepSeek 的OpenAI 们才是真正的賊！

特斯拉：This robot sucks!

Yann LeCun 痛批硅谷精英的优越感！

o3-mini 发布，但仍未走出DeepSeek 阴影

美分析机构称DeepSeek V3 成本远超600 万美元，实际达13亿美元！

OpenAI 最强模型o3 今晚发布！

重现Deepseek R1 「Aha Moment」的完整教程来了！

当马斯克的脑机接口卷到了书法界，我们正在见证史上最硬核的意念书法大赛！

Stable Diffusion 创始人：DeepSeek 没有抄袭！

Anthropic CEO：DeepSeek 为落后的追随者，需进一步加强中国芯片管制！

OpenAI 称有证据证明DeepSeek违规使用其模型！

Grok 重磅推出推理能力，Grok 3 或指日可待！

DeepSeek严正声明：警惕虚假账号冒充！

手把手教学：40000 元在家跑顶级DeepSeek R1的完整方案！

重磅！OpenAI 推出美国政府专用版ChatGPT Gov！

Meta 或成开源竞赛中最大输家！

DeepSeek 入场，Meta 或成开源竞赛中最大输家！

终于，Sam Altman 正面迎战DeepSeek！

量化压缩80%！160GB就能运行671B的DeepSeek R1

炸裂！DeepSeek 的新春礼物——多模态模型Janus-Pro 详解

DeepSeek 爆火遭Scale AI 华裔 CEO Alexandr Wang 痛批：美国必须加强对中国AI 管制！

继Operator 之后，Perplexity 推出多模态助手！

马斯克：OpenAI 星门计划将流产！

DeepSeek R1 6百万美元训练成本是否真实？

试用完 OpenAI 的新代理工具，以下是我们的发现

哈佛医学院：AI 将治愈癌症，Sam Altman 没在吹牛！

重磅！字节发布UI-TARS大模型，三句话搞定电脑操作！碾压GPT-4！

Perplexity发布Sonar API，提供实时信息搜索功能，一举超越所有搜索引擎和LLM！

Perplexity发布Sonar API，一举超越所有搜索引擎和LLM

重磅！OpenAI 宣布5000亿美元启动Stargate项目，「星门计划」再起波澜！

Anthropic发布 Agent 最佳实践指南！

重磅！Anthropic CEO 称将于2025年推出数字员工！

Perplexity CEO：印度应向中国学习模型研发！

DeepSeek R1 训练方法解析

超便携AI超算来了！这台「公文包」竟能塞下一台超级计算机

以小博大，DeepSeek-R1-Distill-Qwen-1.5B 开源模型击败GPT-4和Claude 3.5!

爬虫工程师将失业！Firecrawl 能让你一句话抓取全网数据！

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉