首份《人工智能安全指数报告》发布，Anthropic 获得最高安全评级，中国智谱上榜

文摘 2025-01-19 15:24 广东

2024年12月，未来生命研究所（Future of Life Institute）发布了第一份《人工智能安全指数报告》（FLI AI Safety Index 2024），共80页。该报告由图灵奖得主 Yoshua Bengio、加州大学伯克利分校计算机科学教授 Stuart Russell 等7位全球顶尖AI专家组成的独立评审小组，评估6家主流 AI 公司（Anthropic、Google DeepMind、Meta 、OpenAI、x.AI、智谱）在六大领域的安全实践，包括风险评估、现有危害、安全框架、存在性安全战略、治理与问责以及透明度与沟通。

报告指出了公司在管理风险上的巨大差异，并呼吁加强第三方监督及改进当前的治理结构，以应对当前及潜在的AI风险。

报告链接：https://futureoflife.org/document/fli-ai-safety-index-2024/

报告显示，尽管 Anthropic 获得了最高的安全性评级，但分数仅为“C”，包括 Anthropic 在内的 6 家公司在安全实践方面仍有提升空间。

PART.01

主要发现

风险管理差距显著：尽管一些公司已经建立了初步的安全框架或开展了一些严肃的风险评估工作，但其他公司甚至尚未采取最基本的预防措施。
绕过限制（Jailbreaks）：所有旗舰模型都被发现易受对抗性攻击的影响。
控制问题：尽管许多公司明确表达了开发人工通用智能（AGI）的雄心，这种智能能够媲美或超越人类智能，但评审小组认为，目前所有公司的策略都不足以确保这些系统在安全范围内运行并保持在人类控制之下。
外部监督：评审人员一致指出，在缺乏独立监督的情况下，公司往往难以抵抗逐利动机而在安全方面偷工减料。尽管。Anthropic 目前的治理结构和OpenAI初期的治理结构被视为具有前景的案例，但专家呼吁对所有公司的风险评估和安全框架合规性进行第三方验证。

PART.02

6 大维度评估 AI 安全

评审专家从风险评估（Risk Assessment）、当前危害（Current Harms）、安全框架（Safety Frameworks）、生存性安全策略（Existential Safety Strategy）、治理和问责制（Governance & Accountability）以及透明度和沟通（Transparency & Communication）分别对每家公司进行评估，最后汇总得出安全指数总分。

在指数设计上，6 大评估维度均包含多个关键指标，涵盖企业治理政策、外部模型评估实践以及安全性、公平性和鲁棒性的基准测试结果。

维度 1：风险评估

OpenAI、Google DeepMind 和 Anthropic 因在识别潜在危险能力（如网络攻击滥用或生物武器制造）方面实施更严格的测试而受到肯定。然而，报告也指出，这些努力仍存在显著局限，AGI 的相关风险尚未被充分理解。
OpenAI 的欺骗性能力评估和提升研究获得了评审专家的关注；Anthropic 则因与国家人工智能安全机构的深度合作被认为表现尤为突出。
Google DeepMind 和 Anthropic 是仅有的两家维持针对模型漏洞的专项漏洞奖励计划的公司。
Meta 尽管在模型部署前对危险能力进行了评估，但对自治、谋划和说服相关威胁模型的覆盖不足。
智谱的风险评估相对不够全面，而 x.AI 在部署前的评估几乎缺失，大幅低于行业标准。

维度 2：当前危害

Anthropic 的人工智能系统在安全性与信任度基准测试中得到了最高分，Google DeepMind 紧随其后，该公司的 Synth ID 水印系统被认可为减少人工智能生成内容滥用的最佳实践。
其他公司得分偏低，暴露出安全缓解措施的不足。例如，Meta 因公开前沿模型权重被批评，该做法可能被恶意行为者利用来移除安全防护。
此外，对抗性攻击仍是一个主要问题，多数模型易受越狱攻击，其中 OpenAI 的模型尤为脆弱，而 Google DeepMind 在此方面防御表现最佳。
评审专家还指出，只有 Anthropic 和智谱在默认设置下避免将用户交互数据用于模型训练，这一实践值得其他公司借鉴。

维度 3：安全框架

所有 6 家公司均签署了《前沿人工智能安全承诺》，承诺制定安全框架，包括设置不可接受风险阈值、高风险场景下的高级防护措施，以及在风险不可控时暂停开发的条件。
然而，截至本报告发布，仅有 OpenAI、Anthropic 和 Google DeepMind 公布了相关框架，评审专家仅能对这三家公司进行评估。其中，Anthropic 因框架内容最为详尽而受到认可，其也发布了更多实施指导。

维度 4：生存性安全策略

尽管所有公司均表示有意开发 AGI 或超级人工智能（ASI），并承认此类系统可能带来的生存性风险，但仅有 Google DeepMind、OpenAI 和 Anthropic 在控制与安全性方面开展了较为严肃的研究。
Anthropic 凭借其详尽的 “Core Views on AI Safety” 博客文章获得最高分，但专家认为其策略难以有效防范超级人工智能的重大风险。
OpenAI 的 “Planning for AGI and beyond” 博客文章则仅提供了高层次原则，虽被认为合理但缺乏实际计划，且其可扩展监督研究仍不成熟。
Google DeepMind 的对齐团队分享的研究更新虽有用，但不足以确保安全性，博客内容也不能完全代表公司整体战略。
Meta、x.AI 和智谱尚未提出应对 AGI 风险的技术研究或计划。评审专家认为，Meta 的开源策略及 x.AI 的 “democratized access to truth-seeking AI” 愿景，可能在一定程度上缓解权力集中和价值固化的风险。

维度 5：治理和问责制

Anthropic 的创始人在建立负责任的治理结构方面投入了大量精力，这使其更有可能将安全放在首位。Anthropic 的其他积极努力，如负责任的扩展政策，也得到了积极评价。
OpenAI 最初的非营利结构也同样受到了称赞，但最近的变化，包括解散安全团队和转向营利模式，引起了人们对安全重要性下降的担忧。
Google DeepMind 在治理和问责方面迈出了重要一步，承诺实施安全框架，并公开表明其使命。然而，其隶属于 Alphabet 的盈利驱动企业结构，被认为在一定程度上限制了其在优先考虑安全性方面的自主性。
Meta 虽然在 CYBERSEC EVAL 和红队测试等领域有所行动，但其治理结构未能与安全优先级对齐。此外，开放源代码发布高级模型的做法，导致了滥用风险，进一步削弱了其问责制。
x.AI 虽然正式注册为一家公益公司，但与其竞争对手相比，在人工智能治理方面的积极性明显不足。专家们注意到，该公司在关键部署决策方面缺乏内部审查委员会，也没有公开报告任何实质性的风险评估。
智谱作为一家营利实体，在符合法律法规要求的前提下开展业务，但其治理机制的透明度仍然有限。

维度 6：透明度和沟通

评审专家对 OpenAI、Google DeepMind 和 Meta 针对主要安全法规（包括 SB1047 和欧盟《人工智能法案》）所做的游说努力表示严重关切。与此形成鲜明对比的是，x.AI 因支持 SB1047 而受到表扬，表明了其积极支持旨在加强人工智能安全的监管措施的立场。
除 Meta 公司外，所有公司都因公开应对与先进人工智能相关的极端风险，以及努力向政策制定者和公众宣传这些问题而受到表扬。
x.AI 和 Anthropic 在风险沟通方面表现突出。
Anthropic 不断支持促进该行业透明度和问责制的治理举措。
Meta 公司的评级则受到其领导层一再忽视和轻视与极端人工智能风险有关的问题的显著影响，评审专家认为这是一个重大缺陷。
专家们强调，整个行业迫切需要提高透明度。x.AI 缺乏风险评估方面的信息共享被特别指出为透明度方面的不足。
Anthropic 允许英国和美国人工智能安全研究所对其模型进行第三方部署前评估，为行业最佳实践树立了标杆，因此获得了更多认可。

参考：
https://sdbdra.cn/newsinfo/7885098.html
https://mp.weixin.qq.com/s/a8Hk1XIjW7uXfhMW9D9YLQ

HsuDan

拥抱AI技术，分享人工智能、机器学习、数据分析等多个领域的优质资讯、学习资源、实践案例、开源项目及开发工具。

最新文章

DeepSeek-R1 成为首个与OpenAI o1比肩的开源推理模型！

首份《人工智能安全指数报告》发布，Anthropic 获得最高安全评级，中国智谱上榜

9h打通顶会壁垒！实现1天内复现任意顶会文章！

【最新开源】VITA-1.5：实时视觉与语音交互，1.5秒互动延迟

【2024年终总结】2024 年最具影响力的AI论文 Part 1

60k感知算法岗面试，考察热门Occ算法及难点！

【2024年终总结】2024年“大模型 & AI应用”值得推荐的好书

【2024年终总结】2024年最值得读的 AI 论文

【2024年终总结】2024年AI大模型总结报告|Artificial Analysis

Artificial Analysis：2024年AI大模型总结报告

端侧AI | 小模型 | SLM（11月-12月）

智源发布 FlagEval 全球100+大模型综合评测结果！国产大模型拿下多个冠军！

NeurIPS 2024 最佳论文揭晓！北大、字节跳动「VAR模型」获最佳论文！

国内“推理模型”卷疯了！类 o1 推理模型，谁更强？

中国生成式AI大会即将登陆上海，全解大模型、AI Infra、端侧AI、视频生成和具身智能，40+位重磅嘉宾抢先看！

吴恩达开源大模型套件 aisuite：一个接口，可调用11个模型平台

清华、北大团队推出 LLaVA-o1：首个自发性视觉 AI 模型

Mistral AI 再发力！最强开源多模态模型 Pixtral Large！对标ChatGPT全面升级le Chat！

【大模型前沿】FinVision：一种用于股市预测的多智能体框架！

【必读】2024 人工智能全景报告《State of AI Report 2024》

最强表格AI问世，浙大开源 TableGPT2！

ChatGPT“频频翻车”，国内「AI搜索」新高度，天工、知乎「专业搜索」很能打！

刚刚，ChatGPT变身”AI搜索”，免费用！

最新开源：英伟达开源Nemotron 70B刷爆SOTA，仅次于o1！

大模型前沿|MLLM篇：苹果多模态模型大升级！首个开源MLLM通用评测器LLaVA-Critic！

大模型前沿|MLLM篇：港科大团队提出PVIT；苹果推出MM-Ego；北大将MLLM作为检索器；首个开源MLLM通用评测器...

6天6奖！2024年诺贝尔奖花落谁家？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉