文|杨泽原 丁奇 马庆刘 孙竟耀
AutoGLM等终端AI Agent技术将带来更短路径的交互形式,接受语音指令并自动完成复杂操作的能力将为消费者带来极大便利,其有望成为AI终端的亮点功能并吸引消费者升级换代。从产业节奏来看,苹果、荣耀等手机厂商已经开始落地,有望引领行业加速发展。从AI Agent有望落地的大逻辑出发,我们建议关注终端及应用、AI Infra、算力等领域的头部公司。
▍事件:
根据36氪,2024年10月25日,智谱AI推出自主智能体AutoGLM,它是一个能代替用户在手机和网页上完成各种操作的AI助手,其无需用户单独进行操作示范,不受制于简单任务场景或API调用,用户说出需求,一句话手机自动帮用户点外卖、发微信、写点评、对朋友圈进行评论。具体来说,在用户向AutoGLM发出指令后,双方之间的对话将以语音形式展现,并实时显示字幕;在涉及到敏感操作时,比如消息发送、评论发送时,其会再次征求用户许可。目前,AutoGLM已上线电脑端开放使用,安装清言插件即可使用,手机端AutoGLM正开放安卓手机内测。
▍技术原理:大语言模型为基础,将GUI转化为简略HTML字符。
我们认为AutoGLM的技术原理可以参考清华大学和智谱AI等机构于2024年4月发布的《AutoWebGLM: A Large Language Model-based Web Navigating Agent》论文。其原理是,识别上,将网页通过OCR光学符合识别和HTML Parser(HTML解析器)表示为一种简化、Agent可理解的HTML表示,其中包括文字内容及各种可操作组件的位置、大小等;数据上,将任务转换为一序列的状态和动作,状态包括(HTML、URL、当前窗口位置),动作包括(鼠标单击、鼠标滚动、输入等);推理上,将上述数据结合任务输入大语言模型(LLM),Agent会根据状态数据结合目标选择下一步动作并输出动作数据,直到完成最终目标,在复杂任务更会进一步结合CoT思维链进行解析。我们认为原理上网页端的自动操作和手机端自动操作基本一致,都是识别GUI并转换为逻辑文本、通过LLM理解任务并输出操作指令。
▍行业应用:头部厂商实现AI Agent落地,行业发展有望加速。
根据智谱AI官方微信公众号,2024年10月22日,中国三星与智谱华章宣布战略合作,双方将携手在AI手机领域展开深度共创,把三星AI硬件优势和对标全球体验的应用场景与智谱GLM大模型相结合,一起为用户打造更加优质、个性化的AI手机和智能服务。根据财联社,苹果公司宣布,其终端AI功能Apple Intelligence将于当地时间10月28日与iOS 18.1一同公开上线。根据虎嗅,9月6日,荣耀CEO赵明在2024德国柏林消费电子展上发布行业首个跨应用开放生态AI Agent,带来可以帮助用户一键关闭自动续费、一键点饮品、一键旅行规划与订票等AI Agent体验,用户只需一句话说明需求,剩下的工作交给手机自动完成即可,并将在下一代旗舰荣耀Magic7系列上落地商用。我们认为苹果、荣耀、三星等领先终端厂商近期开始发力、落地基于AI Agent技术的边端AI功能将带动行业整体发展加速,提升AI手机对于消费者的吸引力。
▍风险因素:
人工智能技术发展不及预期风险;算力供给不足风险;用户接受度不及预期风险;用户数据安全和隐私风险;AI Agent产品体验不及预期风险;电子终端换代进度不及预期等风险。
▍投资策略:
我们认为以AutoGLM为代表的AI Agent技术将带来终端路径更短的交互形式,接受语音指令并自动完成复杂操作的能力将为消费者带来极大便利,其有望成为AI终端的亮点功能并吸引消费者升级换代。从产业节奏来看,苹果、荣耀等手机厂商已经开始落地,我们认为AI Agent技术已经具备一定成熟度,头部厂商有望引领行业加速发展。从AI Agent有望落地的大逻辑出发,我们建议关注终端及应用、AI Infra、算力三个方向。