https://zhuanlan.zhihu.com/p/685840097
亲爱的朋友们,
基于LLM的智能体可以自主规划和执行一系列动作,其发展非常迅速,还能持续看到每个月的进步。许多项目试图完成“写一篇关于X主题的报告”这样的任务,并自主地采取浏览网页等行动来收集信息以合成报告。
AI智能体可以被设计成采取许多不同类型的行动。研究智能体(如许多建立在AutoGPT, GPTresearcher或STORM上的项目)会搜索网络并获取网页。销售代表智能体可以将产品分发给用户。工业自动化智能体可以控制机器人。
到目前为止,我看到浏览web的智能体进展得更快,因为实验成本低,这是实现快速技术进步的关键。获取一个网页很便宜,如果你的智能体做出不好的选择,读错了页面,也没什么大不了的。相比之下,派发产品或移动实体机器人是成本高昂的动作,这使得快速实验变得困难。类似地,生成代码的智能体(可以在沙盒环境中运行)的运行成本相对较低,从而带来快速的实验和进展。
虽然今天的研究智能体的主要任务是收集和综合信息,仍处于早期发展阶段,但我期待看到快速的改进。ChatGPT、必应聊天和Gemini已经可以浏览网页,但他们的在线研究往往是有限的;这有助于他们快速回到用户身边。但我期待着下一代的智能体,它们可以花几分钟甚至几个小时进行深入研究,然后向你返回一个输出。这样的算法能够生成比只获取一到两页就返回答案的模型更好的答案。
即使实验过程很快,评估仍然是开发的瓶颈。如果你可以快速尝试10种不同的算法,你该如何从中做出选择呢?使用LLM来评估另一个LLM的输出是一种常见的做法,但促使LLM对文本输出给出非常准确和一致的评估是一项挑战。这些方面的任何突破都将加速进步!
一个令人兴奋的趋势是朝着多智能体系统 (multi-agent systems) 的方向发展。如果不是只有一个智能体,而是有一个智能体做研究和收集信息,第二个智能体分析研究,第三个智能体撰写最终报告呢?这些智能体中的每一个都可以在同一个LLM上构建,使用不同的提示符,使其发挥指定的特定作用。另一个常见的设计模式是让一个智能体写作,另一个智能体作为评论家,向第一个智能体提供建设性的反馈,以帮助其改进。这可以产生更高质量的输出。诸如微软的AutoGen, Crew AI和LangGraph这样的开源框架使开发人员更容易编程多个智能体来协作完成任务。
我自己也测试过许多智能体系统,我认为它们是构建智能系统的一种很有前途的方法。通过扩大LLM的规模已经取得了很多进展,毫无疑问,这种发展将继续下去。但伟大的想法有时是由很多很多小想法组成的。(例如,你可能通过许多小的推导步骤得出一个重要的数学定理。)如今的LLM可以执行推理,并且有很多“小想法”,因为它们可以接受信息并做出基本的推断。思维链提示表明,引导LLM循序渐进地思考——将许多基本推论串在一起——比要求它在没有中间步骤的情况下直接得出结论更能准确地回答问题。
智能体编程模型是一种很有前途的方式,可以显著扩展这一原则,并指导LLM拥有许多小想法,这些小想法会共同构成更大、更有用的想法。
请不断学习!
吴恩达