AI也能像人一样玩手机?智谱AI推出自主智能体AutoGLM
情感
2024-10-28 17:42
重庆
或许,智谱AI将为当下AI时代书写具有划时代意义的一笔。近日,智谱AI团队推出了基于GLM技术团队研究的创新智能体产品——AutoGLM。它仅需简单文字或语音指令即可在手机上实现操作,智谱AI将其称为“phone use 能力”。该款智能体的问世,意味着未来人们只需通过简洁的指令,AI就可能完成任何指令要求的内容。如果说 “computer use” 开启了人机交互的崭新范式,那么 “phone use” 则更进一步,将解锁更多应用可能性。从智谱AI此前发布的视频来看,AutoGLM能够执行网购、线上订餐、朋友圈点赞评论、整理社交媒体内容等任务。目前,AutoGLM已适配多款知名应用,涵盖了日常生活的多个方面。智谱AI表示,理论上AutoGLM可以完成人类在电子设备上可以做的任何事,它不受限于简单的任务场景或API调用,也不需要用户手动搭建复杂繁琐的工作流,操作逻辑与人类类似。相较于此前发布的功能产品,AutoGLM极大地拓宽了AI的应用边界,这得益于智谱AI对手机界面的深刻理解和强大的学习能力。AutoGLM基于智谱AI自研的“基础智能体解耦合中间界面”和“自进化在线课程强化学习框架”。其中的核心技术WebRL,克服了大模型智能体任务规划和动作执行存在的能力拮抗、训练任务和数据稀缺、反馈信号稀少和策略分布漂移等智能体研究和应用难题,加之自适应学习策略,能够在迭代过程中不断改进、持续稳定地提高自身性能。换言之,AutoGLM真正做到了像人类一样,通过学习和实践不断进步。它不仅能学习新技能,还能自我纠正和改进,确保在实际应用中更好满足用户需求。值得一提的是,AutoGLM在Phone Use和Web Browser Use上都取得了显著的性能提升。从智谱AI发布的内容,在AndroidLab评测基准上,AutoGLM显著超越了GPT-4o和Claude-3.5-Sonnet的表现。在 WebArena-Lite评测基准中,AutoGLM 更是相对GPT-4o取得了约200%的性能提升,大大缩小了人类和大模型智能体在GUI操控上的成功率差距。对于大众普遍关心的隐私安全问题,智谱AI表示AutoGLM不会主动获取用户的个人隐私信息,如果需要执行授权范围之外的任务,AutoGLM会主动提示以获取用户同意。即使用户向AutoGLM授权,也不意味着AutoGLM永久拥有相关权限,每次后台启动AutoGLM,都会重新向用户申请无障碍权限。目前,AutoGLM Web已经对外发布,手机端AutoGLM则只开启内测,暂时仅支持安卓系统。除了AutoGLM,智谱AI此次还开源了GLM-4-Voice端到端情感语音模型,这也是智谱AI首个开源的端到端多模态模型。与传统的ASR+LLM+TTS的级联方案相比,GLM-4-Voice端到端模型以音频token的形式直接建模语音,在一个模型里面同时完成语音的理解和生成,避免了级联方案的信息损失。使用体感上,相较于两个月前发布的视频通话技术里机械呆板的回复,此次的GLM-4-Voice有了显著的进步,不仅声音有不同的情感和细腻的变化,还可以随时打断并要求改变语速,方言沟通也十分顺畅。目前该功能已在“智谱清言”APP上线,可直接调用。作为AI大模型公司里的头部企业,智谱AI一直致力于朝着人工通用智能(AGI)的目标迈进。AutoGLM等功能的发布,为AI智能体在C端的应用普及注入了新动力,即将成为行业落地AI新范式。