刚刚发布的AutoGLM原理
文摘
2024-10-25 21:27
上海
社群内某手机厂商PM:“就是OCR/catcher+模拟点击”阅读了无数paper的chaNg1o同学解读:(硬核预警)智谱是清华系公司,AutoGLM是基于一个名叫Autodroid的科研项目成果实现。GLM做的工作主要是LLM任务的生成可控性、应用的GUI转化为可以被描述的事件。Autodroid的工作之一,就是将GUI的表示转化为一种HTML的表示形式,HTML这种形式对LLM来说比自然语言更好,可以保留UI元素的属性信息,比如“button”、“checkbox”、“scroller”、“input”和“p”,分别表示可以单击、选中、滑动、编辑和任何其他视图的元素。因为是模拟人类操作,不能接触底层注入,所以LLM需要被限制来选择固定的动作。用户语音被转化为文字,给LLM理解用户的意图提出步骤,再拿着UTG的转换信息给到LLM的上下文,通过结构化数据,输出动作命令,从而实现Agent其中UI、执行动作的数据集,是OCR并被人工注释的,数据集是OCR的,而任务进行中的动作执行并不是纯OCR的。其次,如何微调LLM使其更擅长理解UI和动作之间的关系并做出动作呢?那就需要QA问答的数据集,其中也用到了CoT,一步一步推理:2,分析任务和之前的UI操作和现在的UI状态的关系3,根据之前的操作,任务可以被解决吗?“是/不是” 下一步应该是“…/无”4,任务可以在当前的UI下继续进行吗?是/否。“填写下一个动作”这样就完成了一个用户提出动作问题、LLM解答问题的循环
iPhone的Ferret 2方案,也是基于XCUITest的自动化测试框架实现的,是多模态语言模型MLLM多平台的Lable的通用方案,引入了AnyResolution的图像编码方案,训练数据生成中是CLIP类似的方案,所以未来的LAM是MLLM的。而AutoGLM for Web浏览器任务迟早的事情,工作已经有了,叫AutoWebGLM。关键还是在UI意图学习,让LLM理解点击这个会发生什么,点完了下一步点什么。结构化数据和可控性已经不是问题,所以用户提问也就不是问题。其他相关工作的还有Google、Meta、Samsung,前些天的OPPO、荣耀,差不多是类似研究方向。