大模型头部格局基本确定,AIAgent将加速AGI进程
我们认为,海外闭源大模型已经形成OpenAI为首,Google、Anthropic等紧随的格局。在头部闭源模型之下,Meta引领开源模型生态,开源闭源模型差距逐步缩小。为了适配端侧需求,小参数模型也在快速发展。国内看,模型百花齐放,但技术辨识度不高,23年头部互联网厂商和科技企业进展较快,24年以来初创公司开始发力长文本、MoE等领域。展望后续,ScalingLaw+Transformer仍将长期有效,合成数据或逐渐成为关键数据来源。此外,AIAgent能够极大提高现有模型的表现,是实现AGI的重要推力。大模型技术是AI浪潮的软件“基础设施”,建议持续关注相关进展。
多模态+长文本+MoE已成共识,大模型与小模型路线并驾齐驱
头部GPT、Gemini、Claude模型先后支持了多模态推理;Claude较早实现了200K长文本,Gemini将长文本推到2M tokens;GPT-4、Mistral展现了MoE架构的优势,Gemini也在短期内更改为MoE架构。共识已经形成,国内大模型厂商均在跟进,Kimi引领长文本趋势,MiniMax、阶跃星辰较早实践MoE模型。Mistral、微软、Meta、Google的小模型性能不断突破,为端侧AI打下良好基础,成为与大模型并驾齐驱的另一条重要发展路线。
Scaling Law未达边界,算力换智能仍然成立
OpenAI在Scaling Law论文中,从理论上预测了边界递减的存在。但实际上,OpenAI、Google和Anthropic仍在践行大参数等于高智能的路线。清华唐杰教授在24年2月北京人工智能产业创新发展大会上指出,ScalingLaw尽头远未到来,算力换智能继续成立。在参数持续变大的情况下,训练数据的需求量进一步提升,据Epoch预测,2030年到2050年,将耗尽低质量语言数据的库存,未来训练数据的缺乏将可能减缓机器学习模型的规模扩展。因此,合成数据或成为关键。
AIAgent是AGI的关键范式,具身智能是大模型重要落地场景
AIAgent能够自主、全流程、多步骤的执行任务,大幅延展了大模型的能力范围,被认为是实现AGI的关键范式。斯坦福大学吴恩达教授在24年3月的红杉美国AI峰会上指出,如果用户围绕GPT-3.5使用一个Agent工作流程,其实际表现甚至好于GPT-4。并且AIAgent的能力能够充分受益于大模型的演进。此外,大模型与机器人具身智能的结合(如OpenAI与Figure),也有望随着模型能力的迭代快速发展。我们认为,24年AIAgent和具身智能将成为新一代大模型的重要落地场景。
GPT-5有望推动全球算力和应用的下一阶段发展
我们预期GPT-5:1)MoE架构将延续,专家参数和数量或变大;2)GPT-5及之后模型的训练数据集质量更高、规模更大;3)在思维链CoT的基础上,再加一层AI监督;4)支持更多外部工具调用的端到端模型;5)多种大小不同的参数,不排除推出端侧小模型;6)从普通操作系统到LLM操作系统;7)端侧AIAgent将更加实用和智能。我们认为,GPT-5的发布有望推动全球算力和应用的下一阶段发展
来源:华泰证券