刚刚发布的AutoGLM原理

文摘   2024-10-25 21:27   上海  
社群内某手机厂商PM:“就是OCR/catcher+模拟点击
from zhipu:“多模态读屏
阅读了无数paper的chaNg1o同学解读:(硬核预警)

智谱是清华系公司,AutoGLM是基于一个名叫Autodroid的科研项目成果实现。GLM做的工作主要是LLM任务的生成可控性应用的GUI转化为可以被描述的事件
Autodroid的工作之一,就是将GUI的表示转化为一种HTML的表示形式,HTML这种形式对LLM来说比自然语言更好,可以保留UI元素的属性信息,比如“button”、“checkbox”、“scroller”、“input”和“p”,分别表示可以单击、选中、滑动、编辑和任何其他视图的元素。因为是模拟人类操作,不能接触底层注入,所以LLM需要被限制来选择固定的动作。
用户语音被转化为文字,给LLM理解用户的意图提出步骤,再拿着UTG的转换信息给到LLM的上下文,通过结构化数据,输出动作命令,从而实现Agent
其中UI、执行动作的数据集,是OCR并被人工注释的,数据集是OCR的,而任务进行中的动作执行并不是纯OCR的。
其次,如何微调LLM使其更擅长理解UI和动作之间的关系并做出动作呢?那就需要QA问答的数据集,其中也用到了CoT,一步一步推理:
1,手机上完成这个任务需要这下步骤:“…”
2,分析任务和之前的UI操作和现在的UI状态的关系
3,根据之前的操作,任务可以被解决吗?“是/不是” 下一步应该是“…/无”
4,任务可以在当前的UI下继续进行吗?是/否。“填写下一个动作”
这样就完成了一个用户提出动作问题、LLM解答问题的循环
iPhone的Ferret 2方案,也是基于XCUITest的自动化测试框架实现的,是多模态语言模型MLLM多平台的Lable的通用方案,引入了AnyResolution的图像编码方案,训练数据生成中是CLIP类似的方案,所以未来的LAM是MLLM的。
而AutoGLM for Web浏览器任务迟早的事情工作已经有了,叫AutoWebGLM。关键还是在UI意图学习让LLM理解点击这个会发生什么,点完了下一步点什么。结构化数据和可控性已经不是问题,所以用户提问也就不是问题。其他相关工作的还有Google、Meta、Samsung,前些天的OPPO、荣耀,差不多是类似研究方向。

(具体会有哪些投资机会,欢迎星球内讨论)

信息平权
理性 客观 朴素