重磅！Anthropic发布超级智能时代的AI安全政策

旅行 2024-10-16 06:30 北京

AGI 时代的AI 安全政策来了！

Anthropic刚刚放出了一个大招，让AI安全管理有了新的"标准答卷"。

这家以安全著称的AI公司不甘寂寞，对其责任扩展政策（RSP）来了个大换血。这次升级可不是简单地修修补补，而是从头到脚彻底重塑，誓要让AI安全管理更上一层楼。

那么，这次升级到底有什么猛料？

来一探究竟！

安全等级大升级

Anthropic这次的升级核心就是一个词：量体裁衣。

他们设计了一套叫做AI安全等级标准（ASL Standards）的系统，就像给AI穿上了一件会自动调节的"安全盔甲"。这套系统从ASL-1开始，随着AI能力的提升，安全等级也会水涨船高，一路升到ASL-2、ASL-3，甚至更高。

比如说，如果AI突然学会了下国际象棋，那可能就是ASL-1级别。但如果它能独立进行复杂的AI研究，那可就得升级到ASL-4甚至更高级别的安全措施了。

这就像是给AI装了个"智能防护罩"！

AI越厉害，防护罩就越结实，简直是为AI量身定制的"成长型安全系统"！

能力门槛：AI的"成人礼"

Anthropic还设立了两个关键的能力门槛：

自主AI研发能力：如果AI能独立搞定那些通常需要人类专家才能完成的复杂AI研究任务，那就得升级到ASL-4或更高级别的安全标准。这就像是AI的"成人礼"，一旦跨过这个门槛，就得接受更严格的管理。
CBRN武器相关能力：如果AI能帮助有基础技术背景的人制造或使用化学、生物、放射性或核武器，那就得立即升级到ASL-3级别的安全标准。这就是给AI划了一条红线，一旦碰到就得马上升级防护措施。

这两个门槛简直就是AI世界的"成人礼"和"禁区警报"，一个让AI"长大成人"，一个给AI画出了不能触碰的红线。

安全措施：全方位防护

那么，这些安全等级具体包含什么呢？

以ASL-3为例：

内部访问控制：严格限制谁能接触到模型的核心部分。
模型权重保护：就像给AI的"大脑"上了一把锁。
多层防护系统：包括实时监控、异步监控、快速响应机制等。
严格的部署前测试：就像给AI做"体检"，确保万无一失。

这套组合拳简直就是给AI穿上了一件全方位的"防弹衣"，从内到外，从软到硬，全面保护。

执行与监督：严格自查

为了确保这些政策不是纸上谈兵，不会被束之高阁，Anthropic还建立了一套严格的执行和监督机制：

定期能力评估：就像给AI做"体检"。
安全措施有效性评估：检查"防弹衣"是否还管用。
完善的文档和决策流程：借鉴了高可靠性行业的安全案例方法。
内部治理和外部意见征询：不仅自己查，还要请"专家会诊"。

这一套组合拳下来，简直就是给AI安了个"24小时监控系统"，随时掌握AI的"健康状况"。

Anthropic的这次安全政策升级，不仅展示了如何在推动AI发展的同时严控风险，还为整个AI行业提供了一个可供参考的安全管理框架。

那么问题来了：Anthropic的这套安全升级，是危言耸听，还是内部已经有所突破了呢？

相关链接

https://twitter.com/slow_developer/status/1846198395431428333

https://www.anthropic.com/news/announcing-our-updated-responsible-scaling-policy

👇

本文同步自知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容，并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

每天约监控6000 条消息，可节省约800+ 小时的阅读成本；
每天挖掘出10+ 热门的/新的 github 开源 AI 项目；
每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年，0.27元/天。(每+100人，+20元。元老福利~）

一是运行有成本，我希望它能自我闭环，这样才能长期稳定运转；
二是对人的挑选，鱼龙混杂不是我想要的，希望找到关注和热爱 AI 的人。

欢迎你的加入！

http://mp.weixin.qq.com/s?__biz=MzA4NzgzMjA4MQ==&mid=2453452994&idx=1&sn=d16fa1e17efee4822d70cafae655fed5

AGI Hunt

关注AGI 的沿途风景！

最新文章

MLX-VLM：让你的Mac秒变AI视觉大师！

生物界的GPT来了？Basecamp Research获6000万美元融资打造「生物版ChatGPT」

MAID：多文件一键生成ChatGPT提示词的神器！

惊人突破：ChatGPT诊断癌症达96%准确率

Perplexity计划筹资5亿美元，估值将达80亿美元

我如何在两周内全面学习LLMs？【实习求职必读】

重磅！OpenAI前CTO Mira Murati筹资一亿美元创办新公司

Sage：开源版GitHub Copilot，代码库也能聊天了！

特斯拉无线充电机器人，惊艳亮相！

重磅！微软开源1比特推理框架，CPU跑千亿模型，速度起飞

Yann LeCun：驴爬楼梯说明了什么？

SQL+LLM：让数据分析变得更加智能

Anthropic的财务分析师：用AI洞悉数据，一键生成可视化报告

Anthropic新研究揭示模型潜在的「破坏」能力

Omni ocr：「糟糕」PDF一键转结构化数据

重磅！OpenAI 或用「AGI已实现」漏洞与微软决裂

Greg Brockman将于下个月回归OpenAI，但，公司已物是人非！

英特尔联手AMD，x86联盟反击ARM霸权！

OpenAI大门敞开：不懂AI也能加入，只要你敢想敢干！

NotebookLM最新大升级：定制音频概览、后台播放，并推出企业版

Anthropic 的 CEO 认为 AI 将带来乌托邦 —— 但他首先需要数十亿美元

"X is All You Need"的论文标题是怎么爆发的？

为什么Yann LeCun与Sam Altman对AGI 的预测如此不同？

Meta推出CoTracker3：重新定义视频点追踪

Suno 推出新功能：让照片和视频秒变专属歌曲

英伟达深夜偷袭，微调llama3.1直接击败GPT-4o和Claude3.5

刚刚，Mistral发布端侧模型，占据边缘计算之王！

OpenAI Swarm多代理框架 vs CrewAI 和 AutoGen

Andrej Karpathy：1B参数模型足矣！

AI能理解颜色吗？——将色彩进行嵌入的研究

OpenAI「重磅」新研究：你的名字可能影响ChatGPT的回答！

马斯克机器人梦碎？LeCun：Optimus不过是一具华而不实的躯壳

Gladia获1600万美元融资，推实时语音AI引擎

惊人发现！去学习法未能让AI真正「忘记」，它只是学会了「隐藏」

重磅！Anthropic发布超级智能时代的AI安全政策

Google计划用核能前往AGI

AI不如猫？斯坦福AI主任驳LeCun：你太悲观了！

OpenAI O1：正用AI加速AI的研发

普林斯顿大学：限制AI访问将带来负面影响。LeCun：开源终将胜利！

OpenAI的新威胁：前CTO Mira Murati 正挖角内部员工以创办新公司

AlphaCodium突破o1瓶颈：让AI代码生成更接近人类思维

LLM不会推理——1万美金悬赏下，o1在内所有模型均无法反转二叉树？！

谢赛宁：重要的话说三次，表征对齐很重要！！！

Sam Altman的完美花园：OpenAI的未来蓝图？

Cursor 最强对手？AI编程独角兽Poolside获eBay、英伟达融资5亿美元！

OpenAI将推出新模型对抗Anthropic！不是GPT-5

Glean：从OpenAI禁投黑名单到46亿美元估值

PyTorch版AlphaFold 3来了！

AGI倒计时！Anthropic CEO预言2026年到来

OpenAI遭惊天剽窃指控！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉