AI Agent: 从工具到工具的使用者

科技 2024-10-17 08:01 广东

大家好，我是王路情博士，一个坚持早上5点起床、阅读1小时书籍和晨跑5公里的创业者。

我们提供：

1）软件设计与实现服务

2）数据科学与人工智能服务

3）数字化转型咨询与服务

请问有什么需要我们帮助的吗？我的微信：shushengya360。

感恩遇见，共赢未来！

预训练大模型：从“专用”到“通用”。过去30年里，人工智能研究者在自己专注的特定任务上不断提升模型性能。从1997年“深蓝”战胜国际象棋世界冠军卡斯帕罗夫开始，沃森在智力问答节目《危险边缘》中战胜人类冠军、ResNet在ImageNet图像识别比赛中的准确率超过人类、AlphaGo在围棋比赛中战胜李世石、OpenAI Five在多人策略游戏Dota2中战胜人类职业战队冠军、AlphaFold的蛋白质结构预测准确率超过人类等。图灵测试衡量的是AI在模仿人类智能方面的能力，可以认为AI分别在这些任务上通过了图灵测试。完成这些任务背后的能力涵盖了人类智能感知、认知、决策的各个方面。

但直到2020年OpenAI发布预训练大模型GPT-3前，完成这些任务的都是“专用”的模型。以中译英任务为例，专家系统方法需要语言学家和翻译专家来编写特定规则库，传统机器学习方法需要基于双语语料学习由中文到英文的条件概率，传统的深度学习方法则需要在预训练表示上再用标注数据进行微调，获得中译英模型。然而今天，基于预训练大模型的类ChatGPT聊天应用通过一个对话界面就解决了“通用”任务：不仅可以实现十几种语言的互译，还能处理问答、摘要、写作等不同的自然语言理解和生成任务。更进一步，最近发布的GPT-4o模型更是将语音识别、对话、语音合成这些多模态理解和生成任务统一到了一起。

AI Agent：工具的使用者。当AI只能解决某种专用任务时，我们把它看作被使用的工具。而当AI可以解决通用任务，并且具有可以自然交互的界面时，我们把它看作助手，即所谓的Co-Pilot副驾驶，把各种具体任务告诉它，它会照我们说的做。

预训练大模型的“通用”能力不仅体现在内容理解和生成上，还扩展到了规划和使用工具这类思考和决策任务。比如，我们对着一张有几个孩子和一些小面包的图片问“每个孩子可以平均分到几个小面包”，大模型可以将任务规划成检测小面包、检测孩子、做除法三步，并在每一步调用对应的目标检测模型或除法工具来完成。当AI从被使用的工具变成可以使用工具的主体，这种具备任务规划和使用工具能力的AI系统可被称为Auto-Pilot主驾驶，即AI Agent。在Co-Pilot模式下，AI是人类的助手，与人类协同参与到工作流程中；在Auto-Pilot模式下，AI是人类的代理，独立地承担大部分工作，人类只负责设定任务目标和评估结果。

实际上，人工智能自诞生之初就开始探索AI Agent的解决方案。最近经历了基于规则设计、基于强化学习和目前基于预训练大模型三种范式。其中基于强化学习的AI Agent代表是AlphaGo和OpenAI Five，这类方法仍然是面向专用任务的特定环境进行交互。预训练大模型学习到了通用世界知识，并可以通过语言的形式输入和输出，因而可以泛化到不同任务和环境。具体来说，基于预训练大模型的AI Agent又包括两类，即智能代理和智能体。

智能代理：像人一样设计和应用。目前，对AI Agent传递需求和指令的主要方式是提示词。通过设计特定结构的提示词，我们发现AI Agent展现出了类似人的思考、推理和修正能力。

使用类ChatGPT应用的标准方式是一问一答，这利用的是大模型类似人的系统能力，即直接和快速的响应。对于需要深度逻辑的任务，如算术题，需要设计分步示例提示词，引导大模型进行系统的思维链推理。对于更复杂的任务，如24点游戏，思维链的线性推理也无法实现，需要构建可以回溯的树形结构提示词，引导大模型进行思维树推理，从而从不同角度探索任务解决的可能性。

另一种是结合行动反馈进行推理的能力。“学而不思则罔，思而不学则殆”，AI Agent也一样。“思”代表推理，“学”代表行动。一种叫ReAct的技术结合了Reasoning（推理）和Action（行动），基于观察到的行动反馈动态调整推理过程，通过Thought-Act-Observe的循环，提升对复杂环境的适应性和灵活性。

除了从训练中已经获得的能力，我们希望AI Agent还可以在执行任务的过程中学习：从失败中吸取教训，从成功中总结经验。一种叫Reflexion的技术就模仿了人类的自我反思能力，在上述CoT和ReAct的基础上，通过将行动轨迹和任务成功/失败的奖惩沉淀为经验记忆，来指导未来的任务执行。

有了以上这些类人的能力，AI Agent可以被设计来替代人完成一些复杂的任务。对个人而言，一种典型的应用是个人助理。

GPT-4o和Astra等模型的发布，进一步提升了基于自然语言的个人助理的可用性，将从根本上改变我们获取和生产信息的方式。过去，不同的信息需求需要到不同的网站和APP上解决；未来，所有的需求都可以通过个人助理收集，由它与不同的网站和APP交互。随着时间的推移，AI Agent可以学习用户的偏好和习惯，提供更加个性化的服务。AI Agent将成为智能时代新的信息入口。

对企业而言，企业软件的形式也将发生改变。从使用方式看，传统软件是面向过程设计的，一个大型企业软件常常包含上百种操作流程；基于AI Agent的软件将是面向目标的，大部分面向人的操作都可以隐藏，由大模型替代人来调用工具、规划和执行任务链。从满足的需求类型看，传统软件将高频需求标准化；而基于AI Agent的软件可以“按需生产”，通过搭建符合企业工作流的AI Agent，满足长尾、动态的需求。AI Agent将成为定制化的数字员工，能够理解业务逻辑，自动执行重复性高的任务。企业软件在从SaaS发展为MaaS，经历了云服务的智能化升级后，将再次进化为Agent as a Service，实现自动化升级。

总之，作为智能代理的AI Agent在C端的定位是个人助理，基本要求是自然交互，目标是个性化；在B端的定位是数字员工，基本要求是自动化，目标是专业化。随着AI Agent从工具到工具使用者定位的变化，互联网上人与人之间、人与内容之间的关系也将发生很大变化。

智能体：像人一样分析和相处。在图灵奖得主Yoshua Bengio设计的AGI五个层次中，我们目前大致处于第三个层次——多模态感知和第四个层次——具身与行动之间，终极的第五个层次是社会交互。“斯坦福小镇”是探索AI Agent社会交互能力方面的有趣尝试，通过创建模拟人类社交行为的AI Agent，分析了大模型参与复杂社会环境的能力。

AI Agent在社会交互方面的一个重要场景是虚拟陪伴，从任务复杂度和容错率两方面看都是短期容易实现的。已经出现的是像Character.ai、Talkie、Linky等面向成年人的IP类和交友类应用，未来面向老年人和儿童的AI Agent虚拟陪伴可能是更具社会价值的。从技术的角度看，提升大模型的角色扮演能力、分析和调整大模型的性格特征等都是兼具研究意义和应用价值的方向。

分析大模型的文化价值观对于AI Agent在社会交互中的大规模部署至关重要。根据霍夫斯泰德文化维度理论，我们发现主流的大模型展现出不同的文化价值倾向，而且这种倾向会因为微调数据和使用人群的分布而进一步加深。综合能力更强的模型具有相对更好的适应性，能够根据系统消息或提示词语言调整回答，使其符合特定的文化价值倾向。

另一个值得关注的是AI Agent的回音壁问题。在智能时代，这一问题可能演变成模型回音壁：由于AI Agent通常基于同一大模型或衍生自相似的模型基座，其内在的价值观、偏好和决策逻辑等在社会交互过程中可能被放大，进而形成整个信息生态系统的固有倾向并导致认知固化。经典的社会学问题需要在AI Agent的背景下重新分析和理解，以促进智能体的多元化发展，实现一个安全、可持续的智能体社会。

科幻作家阿瑟·克拉克在1964年提出了“人类是未来高级生命的垫脚石”的观点。对应自动驾驶的发展，目前的AI处于L3级Co-Pilot到L4级Agent之间，而L5是Species硅基生命，即很多人所担忧的“奇点”。保证大模型的安全性目前依靠的是预训练之后基于指令数据的监督微调（SFT）和基于人类反馈偏好数据的强化学习（RLHF）两个阶段。当人类评估者可以提供高质量的反馈信号时，RLHF非常有效。但在AI能力进化的时间尺度上，人类的评估能力相对固定。从某一个临界点开始，人类将无法再为对齐AI系统提高有效的反馈信号。OpenAI提出的超级对齐即是讨论如何控制和监督超人类水平的AI。超级智能和超级对齐是未来人工智能发展的一条主要线索：一个探索能力上限、一个确保安全底线，一个打造最锋利的矛、一个构造最坚固的盾。

在过去的几次技术革命中，电力、算力和信息技术的普及分别依赖电网、计算机和互联网等基础设施的完善，并以电器、个人PC、网页/APP为应用载体服务于用户。正在经历的智能技术革命的基础设施是大模型，而应用载体正是AI Agent。随着智能的边际成本趋近于零，我们可以预见AI Agent应用的大爆发。

万物皆可计算。我们不禁好奇：有计算理论做支撑的大模型的能力边界会在哪里？要更好地设计、应用、分析并和它相处，首先需要真正了解它。每个人可能都需要学习一些计算理论的知识，这不仅是与AI Agent这种新兴社会主体交流的“语言”，更是支撑未来数字世界底层逻辑的“物理学”。

作者系北京交通大学计算机科学与技术学院教授

来源：中国社会科学报

感恩遇见，共赢未来！我的微信，欢迎添加！！

据统计，99%的大咖都关注了这个公众号

👇

http://mp.weixin.qq.com/s?__biz=MzA4OTg5NzY3NA==&mid=2649354764&idx=1&sn=f78c5649e403561d6478704c8c6d02be

数据科学与人工智能

学习和实践数据科学与人工智能

最新文章

人工智能思维：框架与解读

麦肯锡十大思考框架！

《福布斯》2025年十大人工智能趋势

央国企成立数科公司底层逻辑！

AI时代学什么、怎么教？联合国发布最新“能力框架”

金惟纯：人工智能时代，哪种人更被需要？

全世界最懂大模型的两个产品经理，一起聊怎么做AI产品

从国内外10个智能体案例，看AI Agent在教育领域的应用

人工智能时代，未来六种稀缺能力

用初中数学理解LLM工作原理

小白学大模型：斯坦福CS25 Transformers与LLMs

这是一篇关于人工智能的最强科普！

AI推荐！面向教师的生成式人工智能工具合集

国家数据标准体系建设指南！（附下载）

揭露AI行业的众多真相？谷歌前CEO施密特斯坦福访谈究竟说了啥？

人工智能的商业模式

从充满希望到富有成效：服务业生成式人工智能的应用成果

Gartner发布2025 年十大战略技术趋势

任正非：世界走向人工智能的潮流不可阻挡

华为徐直军谈人工智能：拥抱全面智能化时代

7张图，揭秘华为的“人工智能路线图”

2024人工智能技术在内容创作和营销领域的应用及影响分析报告

获得高质量答案，掌握大模型提示工程的黄金公式！

CES 2024亮点：人工智能新品惊艳亮相，看AI如何改变你我生活！

数字营销大变革：AI助力企业业绩新增长，你跟上了吗？

AI大模型提示词全攻略：26个技巧让你事半功倍！

人工智能将迎来全面商业场景应用时代

人人都必须为2025年的十大人工智能趋势做好准备

微软连发10个AI智能体，Copilot月活破210万，60%五百强都在用！

顶尖高手必知的16个思维模型

人工智能的前世今生，你了解吗？有必要了解和认识！

《麻省理工科技评论》万字长文：什么是人工智能？

移动设备统一管理系统，助你移动办公更安全、更规范

学习数据科学必知的10点

麦肯锡&埃森哲工作方法论及技巧

AI Agent: 从工具到工具的使用者

张瑾教授：人工智能与商业变革

2025年值得关注的十大人工智能技术

Anthropic CEO 达里奥·阿莫迪发表万字雄文：强人工智能26年到来，科技进步加速10倍！

高文院士：中国人工智能发展的优势与差距

人工智能赋能教育，给教育带来什么？

AI时代：我们该如何看待人工智能

AI时代来临！揭秘诺贝尔化学和物理双奖背后的科技巨变

姚期智院士：人工智能的科学视角

预见未来：IBM生成式AI研究报告引领企业变革

揭秘谷歌最新发布的185个AI实战案例：探索未来Agent六大趋势

未来已来——人工智能发展简史与展望

一文了解制造企业数字化转型总体框架

我的2024年国庆节读书清单

40个顶级思维模型，快速提升你的数据分析能力！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉