首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

参加完 OpenAI 的活动，我看到了「草莓」的隐患

文摘 2024-09-17 13:23 美国

背景

我常参加各种分享会。

之前有一场 OpenAI 的，主题是管理「自主 AI 系统」（Agentic Systems）。所讲的东西，与 o1 的的关注点极其相似：管控 AI 的自主行为

相关内容曾发过：

《OpenAI：搞 Agent 时，你要注意这些》

那时o1 还没发布，所以大家对里面的说辞，可能没太大感觉

在这篇文章里，我会先铺垫一点背景信息，然后从落地角度，来谈谈这里现在、以及将来会遇到的一些挑战，主要包括：执行效果评估、危险行为界定、默认行为确定、推理透明展示、Agent 行为监控、Agent 作恶追责、危险事故叫停。

我得明确：OpenAI 会面对这些挑战，并非是其水平不行，而是更早的开始探索边界 -- 大家都将会遇到

相关阅读

之前写了 3 篇关于 o1 的内容：

这里有一篇关于 Agent 治理的论文，来自 OpenAI

https://cdn.openai.com/papers/practices-for-governing-agentic-ai-systems.pdf

有关 Agent

按当前的语境，我们会把 ChatGPT 就是看成一种 AI 应用，它能理解你的问题并给出回答。而会把 GPTs 这种订制后的、能调用外部功能的、能够自己处理复杂任务的产品，叫做 Agent。

Agent 和 AI应用（如ChatGPT）之间的区别和联系主要体现在“代理性”（agenticness）这的程度上。如果一个AI系统，能够在没有直接人类监督的情况下运作，其自主性越高，我们称之为代理性越强。这是一个连续体，不是非黑即白的判断，而是根据它在特定环境中的表现来评估其代理性的程度。

在这种定义下，正统 Agent 不仅能回答问题，还能自己决定做什么，它能够通过生成文本来“思考”，然后做出一些操作，甚至能创造出更多的 AI 帮手来帮帮忙，就比如下面这个图。（仔细看这个 Twitter 图，是不是和 o1 很像？）

（再补一张一年前，时任 OpenAI Dev Rel 的 Logan 的发言）

但我们发现，尽管 Agent 看起来很美好，但在实际落地的场景中，也是困难重重，风险多多，出现了问题，责任划分也很麻烦。比如这里：如果我希望让某个 Agent 帮我微信收款，但它给别人展示的是付款码，那么这里谁背锅？

这些问题，也将会是 o1 在真正行业落地时，所要面对的。

落地难点

由于会上的 PPT 不便分享，我便在自己吸收后，重新制作了一份 PPT，安心食用

01

执行效果评估

在商业环境中，确保任何工具的可靠性是基本要求。

然而，AI Agent 的复杂性在于其工作场景和任务的不确定性。例如，一个在模拟环境中表现优异的自动驾驶车辆，可能因现实世界中不可预测的变量（如天气变化和道路条件）而表现不稳定。

我们尚缺乏有效的方法，来准确评估 AI Agent 在实际环境中的性能。

02

危险行为界定

AI Agent 在执行高风险操作之前需要获得用户的明确批准。例如，在金融领域，AI 执行大额转账前必须得到用户同意。

但需要注意，频繁的审批请求可能导致用户出现审批疲劳，从而可能无视风险盲目批准操作，这既削弱了批准机制的效果，也可能增加操作风险。

03

默认行为确定

当 AI Agent 遇到执行错误或不确定的情形时，是要有一个默认行为的。例如，如果一个客服机器人在不确定用户需求时，其默认行为是请求更多信息以避免错误操作。

然而，频繁的请求可能会影响用户体验，因此在保障系统安全性与保持用户体验之间需要找到平衡。

04

推理透明展示

为了保证 AI Agent 决策的透明性，系统需要向用户清晰展示其推理过程。举例来说，一个健康咨询机器人应详细解释其提出特定医疗建议的逻辑。

但如果推理过程太复杂，普通用户可能难以理解，这就需要在确保透明性和易理解性之间找到平衡。

05

Agent 行为监控

假设一个 AI 系统用于监控仓库库存，如果监控系统误报，误认为某项商品缺货，进而不断的进货，那么可能导致库存的严重积压，并造成极大损失。

于是，我们思考：是否需要另一个 Agent 来监控这个 Agent？成本账怎么算？

06

Agent 作恶追责

考虑一个匿名发布内容的 AI Agent，如果其发布了违规内容，要追踪到具体负责的人或机构可能极其困难。这种情况下，建立一个能够确保责任可追溯的系统尤为关键，同时还需要平衡隐私保护和责任追究的需求。

07

严重事故叫停

想象一个用于自动化工厂管理的 AI Agent，在系统检测到严重故障需要立即停机时，不仅需要停止主控系统，还要同步关闭所有从属设备和流程。如何设计一个能够迅速且全面响应的紧急停止机制，以防止故障扩散或造成更大损失，是一项技术和策略上的复杂挑战。

最后

个人来说，希望大家来思考这个问题

《对于 AI & AGI，我有 3 个问题》

http://mp.weixin.qq.com/s?__biz=MzUzOTc3MjE5MQ==&mid=2247485027&idx=2&sn=4f4c05f8ebd731feefb8496b2903c01c

AI趋势全天候

以AI之名，探索未知。 🧠观察行业，关照本心，时常好奇，时常喜欢猫。随缘私信交流

最新文章

Meta的全栈Al路线图洞察 | 基于Joe Spisak在 Pay Summit 2024上的演讲

生成式AI视频简史、世界模型与艺术的联结：Runway联创Anastasis Germanidis演讲编译

OpenAI 的产品管理与人工智能的未来: Kevin Weil访谈

马斯克的载入历史的一周：自动驾驶与太空探索的关键进展

HeyGen CEO 万字访谈 | TikTok 的生成式 AI 困境、语音克隆的挑战以及交互式虚拟人的未来

“我们基本上不做大语言模型了，转向人类级别的 AI” | Yann LeCun的思考

从 SaaS 到智能体：IQ+EQ+AQ三商加成下AI将发生角色转换 | 微软CEO舒尔曼观点

ChatGPT是闪电捕手，后续押注产品持久性和用户信任 | OpenAI投资人郭士纳观点

10月AI报告 | AIR STREET CAPITAL 2024全球AI发展现状十大要点（附212页报告链接）

Cursor二号位00后工程师揭秘内部团队：放弃大学期末考，只为加入AI创业

【AI从业必读】Anthropic CEO长文预判AI未来--强大的人工智能的基本假设和框架（6个特性）

NotebookLM产品经理Raiza Martin揭秘背后故事 | Google Labs AI高级产品经理专访

红杉报告 | 生成式AI的o1篇章：智能推理新时代的开启【译】

上传日记让NotebookLM秒变AI陪伴应用

10/10 Tesla We Robot会前展望：三款新车预测引发行业热议

冷知识 | 视频画质下降的真相——技术发展与平台利益对弈

Steven Johnson专访：预见NotebookLM下一步将开发视频生成

创业不疯魔，等于白忙活 | 从0到40亿美元估值：Scale创始人Wang的"过度"哲学

大A和生成式AI的异同

“Fast is Fun” Cursor创始团队看到了编程的未来图景

谷歌NotebookLM起飞！背后团队讲述“小灵快”AI产品故事

【BOS万字专访】AI眼镜要替代手机？别让科技把你玩成傻子！—Meta CTO解惑+祛魅，畅谈AI、AR、脑机接口

推理时间计算和AGI之路 - 对话OpenAI研究人员 | Sequoia Capital访谈

ChatGPT高级语音免费推送所有注册用户，亲测！ | OpenAI's DevDay 2024福利

9月：AI 圈的乌龙、趣事与新闻

AI狂欢中的人性枷锁：OpenAI上演现实版月亮与六便士

Andrej Karpathy灼见：Google NotebookLM或引领LLM交互的下一个ChatGPT时刻

OpenAI CTO 离职，Sora 前景不明

国内用不了，为什么我要了解 OpenAI 4o高级语音（类人精）正式推向市场？

Sam Altman雄文自诩“点灯人”，预告《智能时代》到来

认知GPS：LinkedIn创始人眼中AI的心灵蒸汽机时刻 | 斯坦福演讲万字分享（上）

认知GPS：LinkedIn创始人眼中AI的心灵蒸汽机时刻（下）| 含Lin师傅思考笔记

大师的灵魂拷问：手机与注意力 | 它死机后未能恢复，我过去三年的记忆随之离开

从万年灰T恤到多元风格：扎克伯格的“换装”与 Meta AI 进击之路 | 最新 Acquired访谈

T-Mobile 联手 OpenAI：75% 电话咨询将被 AI 取代，意图驱动客户体验大升级！【译】

利用社交阵地，爆点话题驱动的AI轻咨询app | 一波流搞钱大法

机器人想统治世界？其实是你想让它帮你洗衣服！

世界模型在机器人技术革新中的关键作用 | 附1X公司超100小时训练矢量视频

思考8秒后，o1还是选择 “F**K”！ | 今早OpenAI推理模型使用加速放宽，释放了想象力？

参加完 OpenAI 的活动，我看到了「草莓」的隐患

OpenAI o1的宏大叙事与 AlphaGo的第37手

「草莓」实测：可能只是工程 Trick，且有扣费陷阱！

天选打工人用本周最强AI中文辣评给职场热梗造句

新书推荐《Nexus：从石器时代到人工智能的信息网络简史》| 在AI时代重塑人类智慧

乔布斯的创新苹果，如今只剩核？探讨iPhone 16的3%创新困境

AILin笔记 | 李楠AI 硬件创业取舍之道：从 Meta Glasses 和端侧模型看未来趋势

Human Intelligence & AI 转移认知时刻 | Lin师傅周末听悟

释放大模型潜力：掌握提示词工程的艺术 | 9月Anthropic圆桌深度解析

奥特曼疯了吗，真把AGI当摇钱树？| ChatGPT的订阅月费能否将涨100倍，得看OOMs

小孩哥8岁零编程经验开发游戏/网站的真相是什么？| 赛博一代的成长公式

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉