首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

参加完 OpenAI 的活动，我看到了「草莓」的隐患

科技 2024-09-17 09:36 广东

背景

我常参加各种分享会。

之前有一场 OpenAI 的，主题是管理「自主 AI 系统」（Agentic Systems）。所讲的东西，与 o1 的的关注点极其相似：管控 AI 的自主行为

相关内容曾发过：

《OpenAI：搞 Agent 时，你要注意这些》

那时o1 还没发布，所以大家对里面的说辞，可能没太大感觉

在这篇文章里，我会先铺垫一点背景信息，然后从落地角度，来谈谈这里现在、以及将来会遇到的一些挑战，主要包括：执行效果评估、危险行为界定、默认行为确定、推理透明展示、Agent 行为监控、Agent 作恶追责、危险事故叫停。

我得明确：OpenAI 会面对这些挑战，并非是其水平不行，而是更早的开始探索边界 -- 大家都将会遇到

相关阅读

之前写了 3 篇关于 o1 的内容：

这里有一篇关于 Agent 治理的论文，来自 OpenAI

https://cdn.openai.com/papers/practices-for-governing-agentic-ai-systems.pdf

有关 Agent

按当前的语境，我们会把 ChatGPT 就是看成一种 AI 应用，它能理解你的问题并给出回答。而会把 GPTs 这种订制后的、能调用外部功能的、能够自己处理复杂任务的产品，叫做 Agent。

Agent 和 AI应用（如ChatGPT）之间的区别和联系主要体现在“代理性”（agenticness）这的程度上。如果一个AI系统，能够在没有直接人类监督的情况下运作，其自主性越高，我们称之为代理性越强。这是一个连续体，不是非黑即白的判断，而是根据它在特定环境中的表现来评估其代理性的程度。

在这种定义下，正统 Agent 不仅能回答问题，还能自己决定做什么，它能够通过生成文本来“思考”，然后做出一些操作，甚至能创造出更多的 AI 帮手来帮帮忙，就比如下面这个图。（仔细看这个 Twitter 图，是不是和 o1 很像？）

（再补一张一年前，时任 OpenAI Dev Rel 的 Logan 的发言）

但我们发现，尽管 Agent 看起来很美好，但在实际落地的场景中，也是困难重重，风险多多，出现了问题，责任划分也很麻烦。比如这里：如果我希望让某个 Agent 帮我微信收款，但它给别人展示的是付款码，那么这里谁背锅？

这些问题，也将会是 o1 在真正行业落地时，所要面对的。

落地难点

由于会上的 PPT 不便分享，我便在自己吸收后，重新制作了一份 PPT，安心食用

01

执行效果评估

在商业环境中，确保任何工具的可靠性是基本要求。

然而，AI Agent 的复杂性在于其工作场景和任务的不确定性。例如，一个在模拟环境中表现优异的自动驾驶车辆，可能因现实世界中不可预测的变量（如天气变化和道路条件）而表现不稳定。

我们尚缺乏有效的方法，来准确评估 AI Agent 在实际环境中的性能。

02

危险行为界定

AI Agent 在执行高风险操作之前需要获得用户的明确批准。例如，在金融领域，AI 执行大额转账前必须得到用户同意。

但需要注意，频繁的审批请求可能导致用户出现审批疲劳，从而可能无视风险盲目批准操作，这既削弱了批准机制的效果，也可能增加操作风险。

03

默认行为确定

当 AI Agent 遇到执行错误或不确定的情形时，是要有一个默认行为的。例如，如果一个客服机器人在不确定用户需求时，其默认行为是请求更多信息以避免错误操作。

然而，频繁的请求可能会影响用户体验，因此在保障系统安全性与保持用户体验之间需要找到平衡。

04

推理透明展示

为了保证 AI Agent 决策的透明性，系统需要向用户清晰展示其推理过程。举例来说，一个健康咨询机器人应详细解释其提出特定医疗建议的逻辑。

但如果推理过程太复杂，普通用户可能难以理解，这就需要在确保透明性和易理解性之间找到平衡。

05

Agent 行为监控

假设一个 AI 系统用于监控仓库库存，如果监控系统误报，误认为某项商品缺货，进而不断的进货，那么可能导致库存的严重积压，并造成极大损失。

于是，我们思考：是否需要另一个 Agent 来监控这个 Agent？成本账怎么算？

06

Agent 作恶追责

考虑一个匿名发布内容的 AI Agent，如果其发布了违规内容，要追踪到具体负责的人或机构可能极其困难。这种情况下，建立一个能够确保责任可追溯的系统尤为关键，同时还需要平衡隐私保护和责任追究的需求。

07

严重事故叫停

想象一个用于自动化工厂管理的 AI Agent，在系统检测到严重故障需要立即停机时，不仅需要停止主控系统，还要同步关闭所有从属设备和流程。如何设计一个能够迅速且全面响应的紧急停止机制，以防止故障扩散或造成更大损失，是一项技术和策略上的复杂挑战。

最后

个人来说，希望大家来思考这个问题

《对于 AI & AGI，我有 3 个问题》

http://mp.weixin.qq.com/s?__biz=MzkzNDQxOTU2MQ==&mid=2247491625&idx=1&sn=b6ee68509216fb2da43d9a933974b0dd

拜AI古佛，修赛博禅心

最新文章

原理解析：17岁高中生「神级 Prompt，把 Claude 强化成满血 o1」

从百度 iRAG，看 AI 分野

我在公众号里，实现了一键特效

赛博精酿｜智能体专场：月底请大家喝一杯

招人｜中国信通院：大模型数据工程研究员

零代码：一键部署 3D 模型，守护最好的坤坤

腾讯开源：3D素材生成模型、最大 MoE 模型，兼容 OpenAI SDK 方式调用

我开发了一款排版器：20秒，完成公众号排版

OpenAI 在「问啥都行」上的一些回复

10月盘点：AI 行业大事记

我开发了一款新的 AI 搜索：批量搜

深度理解提示词：人人能学会，无需硬背

革命序章：Claude 3.5 新 API，可操作电脑

细说实现：大模型是如何被投毒的

“最强”小模型：Ministral 3B/8B 发布

175 份实战手册，来自 OpenAI

AI 模型战局渐定，下一波红利在哪？

特斯拉「We, Robot」发布会总结

拆解：智谱的「深度推理/多步搜索」

搞 AI 的，包揽诺贝尔物理、化学奖

独家信息：关于 o1 的 20 个真相

像用实习生一样用 AI 辅助你编程

ChatGPT上线全新功能Canvas - 我消灭你，与你无关。

扣子最佳实践：雅思口语专家

OpenAI 凌晨发布：Realtime 实时多模态 API，及其他

PIKA1.5正式上线，他们走上了另一条全新的"整活"之路。

AIPO：校园 AI 创投活动，开放报名！

9月：AI 圈的乌龙、趣事与新闻

智谱 API ：1折

OpenAI CTO 离职，Sora 前景不明

Llama-3.2 发布：多模态，禁欧洲

字节全新发布豆包AI视频模型 - 再见了Sora，你的时代过去了。

提示工程：反复崛起，反复被死亡

Claude Prompt：方法论

智谱开源：图生视频模型 & 视频标注模型

Qwen 2.5 开源，API 打一折

参加完 OpenAI 的活动，我看到了「草莓」的隐患

o1 能带我们走进 AGI 吗？

150 行代码，复刻「草莓」，青春版支持联网

「草莓」实测：可能只是工程 Trick，且有扣费陷阱！

原理解析：李继刚老师的「汉语新解」

iPhone 16 发布，全面解读「苹果2024发布会」

小红书式爆款文案正在剿杀语文。

拒绝谣言：OpenAI 没说新模型提价

插播：Qwen 404，但不必担心

最后一天：OpenAI 开发者日，将截止确认

近乎免费的 Gemini Flash，有了结构化输出

突发！Runway HF 已删库跑路

智谱 GLM-4-Plus 发布，独家附送免费 API，和我整的新活

OpenAI「草莓」今秋发布，随后是「猎户座」

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉