一、前言
最近AI界有点疯狂,有可能想抢楼市的风头。
各大平台三番两头发布新产品,五花八门的名字,记不住简直记不住。
腾讯系:腾讯元宝(原混元助手)、腾讯元器。
字节系:豆包(cici)、扣子(coze)、小悟空、chitchop、Dreamina、CodeGen、猫箱(原话炉)、Gauthmath、海绵乐队、豆包大模型平台。
阿里系:通义千问、阿里云百炼。
百度:文心一言、文心一格、百度。
商汤:小浣熊、商量、拟人、秒画、代码小浣熊、办公小浣熊、琼宇、格物、大医。
沉寂了很长时间的李开复也整了个万知。
……
于是乎,想给大模型的应用做一次知识梳理。
首先用一个故事把以上这一系列的产品的做个简单的介绍和分类。
二、讲个故事
AI个人助手
互联网大厂A,为了赶上人工智能这趟车,吭哧吭哧整出个大模型,因为历史技术积累还比较深厚,整出来也问题不大。
但由于训练数据量不够、强化学习不足等等原因,模型只能说勉强能用,但还需要做不少优化工作。招测评员给模型调优,太费钱了,自己干太耗时,其他友商都在飞奔,都在抢C端的入口,再慢一点就赶不上这趟车了。
算了,不管模型好坏,挨用户骂丢人也罢,赶紧推出个应用让用户使用,用户用得不爽,给模型输出的答案来个差评,大量用户的反馈,还可以加速模型调优。
于是乎,各大产商纷纷推出C端个人助手应用,文心一言、腾讯元宝、Kimi、百小应、豆包、通义千问……。字节比较猛,整出十几个APP,用于聊天、生图、教育等等。不同场景来个应用,也就在不同领域有不同的用户任务,这样模型还能学习到不同任务的共同特征和特定特征。
大模型平台
个人用户做个对话啥的还勉强能用,但拿这大模型给企业客户,够呛。于是,在内部找几个团队做验证。
内部合作过程中,对接的团队发现,模型输出结果不符合要求、OpenAPI能力不全、效果测评太麻烦等等问题。然后这些问题反馈到AI团队,团队猛然发现,未来大模型商业化,面对外部客户一样也会出现这些问题。
于是乎,开始搭建大模型平台,内外部客户都可以在平台上做模型微调、强化学习、测评等等。有了这个平台,确实方便很多。
智能体
研发大佬们接入大模型之后,发现除了生成文章、画个图,好像也没解决实际问题。
于是乎开始定位问题,是模型本身的问题?用的姿势不对?
最后发现,都有问题。比如提示词写得不好、大模型行业领域知识不足、大模型不太会做数学运算、大模型不会生成PDF、不能访问互联网数据等等。
活跃在互联网社区的研发大佬们,在自己折腾大模型应用的时候,开始寻找解决问题的方法。
有独无偶,有人发现了个宝藏框架“LangChain”,这框架竟然可以将大模型、外部环境的工具、数据集串起来,实现大模型原本不具备的能力。
比如“搜索明天深圳去杭州的航班”,接入旅游网站的API接口就实现了。
比如“让模型基于法律条款,撰写专业的合同”,提炼一些法律知识,然后再输入给模型,竟然写出来的合同比原来专业很多。
甚至还可以把模型作为大脑,实现某个任务的规划和执行,比如上面两个例子串联起来,“我明天要去杭州谈生意,先给我提供航班信息,然后基于法律知识和合同模板,给我撰写一份与客户签订的合同。”
大佬们一查,原来这玩意叫Agent,由感知观测单元 (Sensor)、记忆检索单元(Memory)、推理规划单元(Planner) 和行动执行单元(Actuator)构成。
但是“代理”,不好听,于是想到蔡自星院士提出的一个概念“智能体”,以这个概念作为中文名称,是不是一下子高大上很多。
故事讲完了,整个脉络应该也比较清晰了。
下面以LLM目前能力释放的情况,看看智能体、AI个人助手、大模型平台的关系。
三、原理拆解
智能体
腾讯元宝、Kimi、文心一言等个人助手,本质上就是个智能体应用。通过个人助手感知用户的文本、语音、图片等信息。
将接受到的信息,通过大语言模型进行任务规划和决策,有时候个人助手会调用外部网站资料,就是LLM的规划决策能力之一。然后开始执行行动,查找资料、生成图片、输出文字等等。
目前个人助手的核心能力是对话,在这个基础上,可以引入更多的部件,增强特定场景的能力(一定程度上可以理解为增强通用能力)。
比如加上RAG检索能力,支持上传文档,就可以补充领域知识,满足个人学习、分析、总结等场景。接入搜索引擎的知识图谱索引,就能实现联网
搜索结果输出。
理论上个人助手可以接入任何的内容,想象空间非常大,尤其是元宝,在腾讯生态内成长,很是期待它未来的形态。
或许,元宝可以成为C端非常大一统的重要入口,背后连接搜索引擎、生活O2O、影音娱乐、智能家居等。
智能体平台
大模型本身并非全能高手,有许许多多的能力它并不具备,但它的大脑确实非常强大,尤其是在规划、推理和语言输出方面尤其明显。要把这个大脑利用起来,还需要给装上各种”零部件”,才能充分发挥它的能力。
智能体就是很好的解决方案。
智能体(Agent)是一种能够感知环境、进行决策和执行动作的智能实体。Agent具备通过独立思考、调用工具去逐步完成给定目标的能力。有LLM作为其大脑之后,Agent更是具备了对通用问题的自动化处理能力。
我们用一个例子来演绎智能体的工作原理。
1
提出目标任务
2
拆解目标任务
将这个目标进行拆解:
识别每个步骤可能遇到的问题,并尝试给出解决方法。其中有一些解决方法,是大模型本身不具备或者比较薄弱的能力。
3
设计工作流程
将以上目标任务,具体为智能体运行的步骤。
环境:用户上传某公司的财报PDF文件,并写下一段文本“请根据某公司的财报,输出一份财务分析报告给我”。
感知:智能体的前端代理获取到环境信息,传达给LLM。
规划:LLM对目标进行理解、规划、指定执行步骤和需要用到的工具。
行动:
将PDF内容进行解析,传给LLM识别财务数据,并根据我们的定义的财务指标,撰写成计算公式,或者代码段。LLM并不太会做数学运算,但是可以根据我们的要求依样画葫芦,让它输出代码段,用于后续的计算。
将代码段给第三方的代码解释器,运算之后得到我们要求的财务指标结果。
将财务指标结合我们一些高质量的分析报告,一起给到LLM,给LLM一些要求,让LLM生成分析报告,LLM就开始吧啦吧啦写文章了。
文章写完之后,给到第三方文本转PDF插件,转化成PDF文件。
给用户一份完美的财务分析报告PDF文件,任务结束。
记忆:将本次任务的对话、使用到的工具进行总结,并保存到记忆模块,有利于后续执行类似的任务。
这个简单的任务就设计完了。
但是,难道每实现一个任务目标,都要自己写代码搭建智能体?这一点都不智能啊。
目前已经有多智能体平台,可以在上面低代码甚至无代码完成各种任务搭建,比如字节扣子、百度APPbuilder、腾讯元器、讯飞星火等。
这些智能体平台目前来看能力差不多,基本上都包含几个组件库:模型库、知识库、插件库以及工作流编排。
字节的Coze能力相对丰富一些,比如知识库最近已经支持图片、表格,让更多保存形态的知识接入智能体中,以满足更多工作或生活上的需求,比如设计师的需求、数据分析师的需求。
智能体的结构示例如下,一整套的能力模板都已经提供给我们了,只需要根据场景需求,替换不同的知识库内容、工具选择、Prompt模板即可。
智能体的应用
toC
1. 智能体平台极大降低了个人利用大模型创造应用的门槛,让众多有点子的个人快速创建小应用,可以极大地丰富AICG的应用生态,越来越多的对生活十分便利的应用将被创造出来,个人助手的应用场景将越来越丰富。
2. 接入更多的应用作为智能体的工具集,比如生活O2O、旅游网站、影音娱乐,应用在生活各个领域中,为个人提供便利。
3. 智能体接入外部设备,丰富与人交互的场景和形式,比如接入智能家居、儿童玩具、教学用具等等。
toB
1. 智能体平台可以让企业以相对较低的开发成本,快速接入LLM,并应用于自己的软件中,越来越多的项目将可能被快速落地。
2. 内部流程优化:将内部流程与智能体结合,充分利用智能体的规划和执行能力,提高自动化能力。
3. 生产力工具优化:智能体与各产业的生产力工具结合,包括创作、编程、数据分析等,提高企业内部生产力。
4. 社会与公共:智能楼宇、消防安全、环境监测。
随着更多的业务场景接入智能体,还需要智能体平台有更多的能力释放和感知能力——将能力以API形式供外部企业接入,同时支持更多的感知模块(如视觉、声波、温感等)。
智能体平台
百度千帆智能体:https://appbuilder.cloud.baidu.com/
字节扣子:https://www.coze.cn/
腾讯元器:https://yuanqi.tencent.com/
讯飞星火:https://xinghuo.xfyun.cn/botcenter
Dify:https://cloud.dify.ai/explore/apps
Fast:https://cloud.fastgpt.in/
大模型平台
大模型平台提供了模型选择、模型调优训练、模型测评、模型部署等服务,让个人或企业可以在平台上一站式获得最终模型。
对灵活性要求更高的深度集成客户,大模型平台将这些能力通过PaaS的方式,抽象出API,供客户调用。
目前大模型平台的核心还是在于帮助客户提高应用领域的适用性,这是一切项目落地的前提。除了微调、强化学习等方法之外,大模型厂商在确保基座模型通用性的基础上,还要想方设法通过其他技术增强领域能力。
最近体验各个大模型产品,相比之前,输出质量又提升了一个层次。所采用的技术包含但不限于以下几种:
通过prompt工程组织输入输出内容,优化query理解,以增强信息检索效率和准确性。
Prompt改写:将用户输入的内容进行改写补全,比如对困惑度较高的词替换成准确的词。
索引增强:将用户输入的内容结合LLM的回复和知识库进行增强。(eg:如何不被蚊子叮?->将问题给LLM回复“点蚊香或电蚊液;装蚊帐;保持下水道卫生”->到知识库查询资料提取相关信息->给LLM做最终的回答)。
任务分解:将用户的问题分解成更简单的子问题,用思维链等方式将复杂问题拆解成多个子问题,再依次解答每一个子问题。
混合专家技术MoE和知识蒸馏,通过知识蒸馏的模型压缩技术,提炼多个不同领域的student模型。再结合混合专家技术在深度神经网络中增加多个并行的前馈神经网络,每个前馈神经网络代表一个领域专家,在推理过程中自主选择控制需要激活的前馈神经网络(即选择对应的专家)。
大模型平台体验地址:
火山大模型平台:https://console.volcengine.com/ark/region:ark+cn-beijing/model
百度大模型平台:https://console.bce.baidu.com/qianfan/overview
阿里云百炼:https://bailian.console.aliyun.com/?spm=5176.29228872.J_TC9GqcHi2edq9zUs9ZsDQ.1.3ec338b11JR0A2#/home
四、大模型能满足所有应用场景吗?
有了大模型之后,企业就可以基于大模型实现所有场景需求吗?事实并非如此。
最近跟一位做ERP的朋友交流,他公司早在去年初就采购了chatGPT,想要通过大模型实现公司内部的低代码工具和提升ERP的智能化能力。但项目进行了一年多,以失败告终。很重要的一个原因是,公司以为用一个LLM大语言模型就可以“一个模型走天下”。
事实上,任何一个项目都需要先完成“技术选型”。
1、模型适用性:并非所有场景,都可以用LLM来解决, 比如对准确性要求更高的推理判断的场景,知识图谱或判别模型可能会更合适。
2、模型不是越大越好:大语言模型泛化能力虽强,但专业领域的知识可能较为薄弱,用专家小模型或用开源小模型做训练微调,效果或许比LLM更好。
3、成本:采购云端大模型的token成本、训练算力成本;开源模型的部署服务器、CPU/GPU成本;测试集投入的人力成本,这些成本都需要考虑在内。
关于LitGate
大家好,我是LitGate,一个专注于AI创作的游戏社区。我们的新版官网已经上线✨你可以在里面找到各种AI创作的实操案例,以及已经沉淀的AI游戏创意demo,相信一定能让你大开眼界!
我们还有一个讨论群📣,如果你对AI创作感兴趣,或者有什么问题想要咨询,欢迎加入我们的讨论群,和大家一起交流学习!(PS:目前群内人数较多,为了有一个优质的讨论环境,请各位添加社区管理员企业微信账号邀请入群
更多精彩活动和功能筹备上线中,敬请期待~
关注我们,一起探索AI创作的无限可能吧!
新版官网地址:www.litgate.ai