AutoGLM在10月26日发布,立马引起了行业的注意力。大家发现AI的能力,已经这么强了,手机也可以这么来使用。但是在实际使用过程中,总是会出现卡顿延时的情况,而且偶尔还会出现不响应的情况。
如果真的开始大规模公测,AutoGLM的稳定性以及实时性能保证吗?如果这两项最基本的需求满足不了,AutoGLM能留住用户吗?这两个问题,也是未来手机厂商上线AI Agent前,需要思考的问题。
AutoGLM的云端VLM在推理时候,是需要拿到前期的信息,包括指令、截屏、响应。任务越复杂,推理步骤也会越多,推理需要的前文数据也会更大。
如果我们将AI Agent的平台部分与推理部分分离,平台负责存储会话数据与分发任务到后台的VLM(视觉语言大模型)资源池,FastAINet负责解决推理数据高速传输的任务,VLM(视觉语言大模型)资源池只负责处理最核心的推理。负载均衡,也是核心部件,它需要实时监控资源池状态,并感知每一次的推理状况。