万字长文:一文读懂Agent,大模型的下一站(下)

文摘   2024-10-17 18:19   北京  

这是求职产品经理系列的第711篇文章

上一篇文章我们讲了什么是Agent,以为为什么要从思维链转到Agent,没看的直接点击下面的链接:


万字长文:一文读懂Agent,大模型的下一站(上)

这篇文章继续讲解Agent如何落地、落地场景、落地难度等问题。

三、Agent已经有哪些落地的场景?

3.1 创作与生成助手

当前在企业应用中以内容创作生成为主要能力的AI Agent从技术上至少有两种:
1)单Agent的内容生成
简单地将大模型的生成能力通过API集成到其他应用与业务流程中,替代或简化原来由人工完成的部分工作。比如:
在线培训管理系统中,利用AI自动根据课件创建考题/考卷
在数字营销流程中,利用AI生成精确营销话术甚至撰写营销方案
市场分析的AI Agent基于互联网搜索或开放数据生成市场分析报告
电子商务企业借助AI自动批量生成商品摘要
媒体行业通过AI生成新闻摘要;学术平台借助AI生成论文摘要
这种类型的AI助手,如果内容简单的情况下,可以借助Prompt工程实现(与C端个人助手并无本质区别),如果内容复杂或者较长,可以拆分多任务执行Prompt,或者使用工具来分段生成。
2)基于多Agent协作的内容生成
典型的为虚拟机器人软件公司,由AI Agent担任多个软件开发岗位,通过相互协作完成某个软件开发任务。
这种多Agent协作型的助手可以借助Multi-Agents框架来简化开发与实现。
比如MetaGPT,可以根据自然语言描述的开发任务,组建Agent团队(PM、架构师、程序员、QA等),遵循SOP并最终输出完整软件开发的成果(文档、代码、API说明等)。


3.2 企业知识助手

在企业应用中,通过“外挂”私有知识库来扩充大模型的知识储备,以提供基于自然语言的、对话式的企业私有知识访问(对应到AI Agent的基本能力之一:持久化记忆),以解决通用大模型在面向企业应用时领域知识不足导致的幻觉问题。
这种“外挂”的方式就是检索增强生成技术(Retrieval-Augmented Generation,RAG),本质是借助于在大模型输入时携带相关的私有知识上下文,让大模型理解、总结、整理并回答用户问题
RAG 通过在语言模型生成答案之前,先从广泛的文档数据库中检索相关信息,然后利用这些信息来引导生成过程,极大地提升了内容的准确性和相关性。
RAG 有效地缓解了幻觉问题,提高了知识更新的速度,并增强了内容生成的可追溯性,使得大型语言模型在实际应用中变得更加实用和可信。


在技术架构图中可以看到LangChain或者LlamaIndex大模型主流应用开发基础框架。
这两个基础框架对大量的模型、文档加载器、向量数据库、嵌入模型等做了抽象封装,并对RAG应用过程中的知识检索、Prompt组装等过程做了简化,可以大大简化开发过程。
另一类可以使用具备开箱即用能力的RAG应用构建平台,比如百度的灵境、天工的开放平台、COZE、FastGPT等,都提供了完善的RAG应用构建工具。FastGPT确实好用,COZE的白嫖GPT4(8k)更香。

3.3 数据分析助手

在现有的企业数据分析应用中,无论是中小型企业自定义的简单报表查询,还是大型企业基于专业数据仓库与BI工具的经营分析系统,尽管在决策支持中发挥了重大作用,但是在使用中仍然存在一些可见的不足,这也常常使得BI类的应用很难达到预期的建设目标。
而现在基于大模型的数据分析助手(Data Agent),通过在企业应用中将自然语言转换成数据分析的语言或代码,比如对API的调用、对数据库的访问、甚至编写数据分析代码,来达到获取数据、分析数据与可视化结果的目的
企业内的数据分析场景(至少是一部分场景)在未来可以转变为:业务人员通过自然语言与Agent对话(比如:我需要了解一下上季度各大区的销售与增长情况),完成数据查询、统计、分析甚至洞察。
这里推荐几个除Langchain之外构建数据分析助手的工具与项目:
  • DB-GPT:一个国内团队的以重新定义数据交互为使命的强大开源项目,包含完整的前后台项目实现,实现了多场景下的交互数据分析。

  • 包括数据库分析、Excel分析、仪表盘分析等,该项目的另一个特点是后端大模型的可伸缩管理架构。另外还有一个专注于微调Text2SQL模型与评估的开源项目。

  • OpenAgents:一个来自香港团队的开源项目,Data Agent是其中一个重要的Agent实现。

  • 当前主要实现了对本地结构化数据文档的数据分析,其特点是提供了两种数据分析方法供选择,一种是基于SQL,一种是基于代码解释器。

3.4 应用/工具助手

AI应用/工具助手就是能够把自然语言转换成对企业应用或者互联网开放API调用的一种基础Agent形式。
应用助手的基本原理是比较简单的,其复杂性主要体现在大模型对自然语言转API的能力,类似于上述的text2API
推荐以下几个项目:
LangChain:LangChain中的Agent组件,通过组装多个Tools,封装与简化了大模型使用工具的过程,可以让你专注于Tools的创建即可。
Assistants API:这是OpenAI官方最新放出构建AI助手的API,如果你条件具备,也可以基于此构建企业AI助手,充分利用其强大的gpt4模型。其中对工具的使用主要体现在其对Function Calling功能的支持。

3.5 自定义的流程助手

一种类似RPA(机器人流程自动化)的AI智能体。其主要能力是结合RPA实现网络浏览、操作与探索的动作与过程,实现由AI控制的工作流程。
通过自定义的流程助手,将Agent作为企业的数字员工,来简化企业日常工作中重复性较高、流程与规则固定、大批量的前端操作性事务,比如多平台订单数据分析、合并、计算,批量联系客户等。
利用大模型的理解与分析推理能力,可以让AI更加智能的规划与分解任务过程,然后借助浏览器完成执行;且在未来可以利用像GPT-4V这样的视觉模型,更智能的理解界面元素与功能,实现完全自主的智能操作,具备更强的自适应能力。

四、Agent适合在哪些场景落地?

4.1 做到比人(普通员工)好
当我把生成的文章拿给我们的专业内容编辑同事,她撇撇嘴,这只能给60分啊。但是我们要的不就是这60分?
客户不一定要求Agent达到专家水平,很多场合只要比普通员工好就够了。Agent PK的,实际上是月薪几千元的员工
比如,公司IT部门要响应业务人员的各种需求(如临时报表)。如果提供对话式UI,通过几轮对话让业务人员说明白需求,Agent来自动生成,做到这个,客户已经愿意买单了。
这样IT团队可以从琐碎中解脱出来,做更重要的事。
4.2 Text to SQL
Text to SQL 在企业落地上有很多案例,以上例子本质上就是Text to SQL, 只不过多了很多新的数据来源:比如从商业化中最值钱的文档(合同、财报、简历、招投标书等)中提取数据。
把这些数据连同专家知识一起灌给大模型,把信息抽出来,通过Text to SQL来回答问题,这件事已经很值钱了,可复制性也很强。
4.3 写代码
帮程序员写代码这个场景毋庸多言。一个有趣的发现,是大模型些代码大部分时间做的是写正则表达式。
正则表达式是个没多少人会写、但是很好用的东西。程序员调试,之前在这里经常花很多时间,用了大模型之后发现很快就能解决。
这带给我们一个启发:有很多人类不擅长但AI很擅长的细分领域,是最适合Agent去落地探索的。
4.4 解决头部问题是落地关键
我们看到在Agent领域有很多漂亮的Demo, 但能否将企业转化成为真正的长期付费者,一个核心是当这个工具真的进入企业后,员工是不是可以真正把它用起来解决问题。
Agent肯定会有不好用的地方,关键是要先能把大部分员工的头部问题解决掉。
做到这个,再出现一些小众长尾问题,能让大部分用户觉得,这是人的问题而不是AI的问题,就好办了(这种情况下,人会调整自己使用Agent的方式,比如更改询问方式等等,通过人向AI靠拢的方式解决的一部分长尾问题)。

五、为什么Agent落地这么难?

理论层面Agent有很大的优势和很多陆地场景,但是实际落地中,依然有很多问题,究其原因主要是以下几点:

5.1 在未知领域中的泛化能力
尽管 AI Agent 的出现本身就拓展了大模型解决更加复杂未知领域问题的能力。
但是由于缺乏与现实世界真正“具身”的交互,因此一个可以做到浏览网页的 Agent 是否通过同一套框架与工程手段就可以做到操控无人机编组,这一问题仍然悬而未决;
5.2 Agent 的过度交互问题
为了完成任务,Agent 需要与环境进行大量复杂多步的交互,而一些研究也表明 Agent 很有可能会陷入到不断交互的循环陷井之中,在交互循环中无意义的空转。
并且,由于 Agent 解决问题缺乏“效率”,因此由此生出的日志的存储与信息检索也将成为新的问题;
5.3个性化 Agent
人手一个的私人智能助理是一个美好的畅想但是一个真正的个性化 Agent 的实现还面临许多问题。
目前个性化 Agent 的研究有三条技术进路,分别是从定制化的 Prompt 出发,从微调出发以及从模型编辑出发,但是这些进路都有各自的问题,并且当下研究都主要聚焦于特定的问题背景,目前还不存在一套完整统一的解决方案;
5.4 Agent 安全问题
当 Agent 逐步进入人们的日常生活,Agent 与 CoT 的安全性问题就必须得提上日程,譬如老生常谈得隐私泄露、权限滥用、有毒信息等等问题。
此外,当 Agent 应用于现实世界后,此外,由于缺少现实世界真正多模态的反馈,譬如人类智能可以感受到“痛”,而 AI Agent 不会有这方面的信息输入,因此如何对完全不同质的两类主体进行“对齐”也将是关键问题;


转行/求职产品必备



如果想要进入AIGC领域做产品经理,推荐我们的《AIGC产品实战特训营》
面向群体:0经验转行想要求职AIGC产品经理的人
项目优势:
1)小班制,每一期10个人左右。个性化好,1对1背景诊断以及项目方向定制。
2)课程系统性强:课程会深度讲解机器学习强化学习、深度学习大模型相关,所以没有算法基础的同学不用担心
3)手把手带着做的项目属于招聘量大、求职成功率高、薪资高的对话类(对话机器人)和图片类(类妙鸭相机)两个项目,这两个项目都是落地项目,不是虚拟项目
4) 百度资深AI面试官1对1的简历修改和模拟面试服务,无须额外付费。
5)有任何疑问都可以免费在2V1服务专属群提问
6)如果错过直播,每次直播都有直播录屏可以观看回放
7)额外福利:免费复训如果一期课程感觉吸收不好,目前提供免费复训机会。
详细说明:
真心建议大家冲一冲新兴领域,工资高前景好【AIGC篇】

薛老板AIGC和新能源求职
前百度、京东10年资深产品经理 畅销书《产品经理求职面试笔记》作者,全网粉丝20W 助力转行年薪40W+新能源/人工智能/互联网产品 已帮助5000+学员入职排名前10一线大厂......
 最新文章