Bengio参与的首个《AI安全指数报告》出炉，最高分仅C、国内一家公司上榜

科技 2024-12-16 14:07 北京

机器之心发布

机器之心编辑部

安全话题，在人工智能（AI）行业一向备受关注。

尤其是诸如 GPT-4 这样的大语言模型（LLM）出现后，有不少业内专家呼吁「立即暂停训练比 GPT-4 更强大的人工智能模型」，包括马斯克在内的数千人纷纷起身支持，联名签署了一封公开信。

这封公开信便来自生命未来研究所（Future of Life Institute），该机构由麻省理工学院教授、物理学家、人工智能科学家、《生命 3.0》作者 Max Tegmark 等人联合创立，是最早关注人工智能安全问题的机构之一，其使命为 “引导变革性技术造福生活，避免极端的大规模风险”。

公开信息显示，生命未来研究所的顾问委员会成员阵容强大，包括理论物理学家霍金、企业家马斯克、哈佛大学遗传学教授 George Church、麻省理工学院物理学教授 Frank Wilczek 以及演员、科学传播者 Alan Alda、Morgan Freeman 等。

日前，生命未来研究所邀请图灵奖得主 Yoshua Bengio、加州大学伯克利分校计算机科学教授 Stuart Russell 等 7 位人工智能专家和治理专家，评估了 6 家人工智能公司（Anthropic、Google DeepMind、Meta 、OpenAI、x.AI、智谱）在 6 大关键领域的安全实践，并发布了他们的第一份《人工智能安全指数报告》（FLI AI Safety Index 2024）。

报告显示，尽管 Anthropic 获得了最高的安全性评级，但分数仅为 “C”，包括 Anthropic 在内的 6 家公司在安全实践方面仍有提升空间。

报告链接：https://futureoflife.org/document/fli-ai-safety-index-2024/

关于这份报告，Tegmark 在 X 上甚至一针见血地指出：Anthropic first and Meta last，即：Anthropic 的安全性最高，而坚持开源的 Meta 在这方面却垫底。但 Tegmark 也表示，“这样做的目的不是羞辱任何人，而是激励公司改进。”

值得一提的是，生命未来研究所在报告中写道，“入选公司的依据是其在 2025 年之前打造最强大模型的预期能力。此外，智谱的加入也反映了我们希望使该指数能够代表全球领先企业的意图。随着竞争格局的演变，未来的迭代可能会关注不同的公司。”

6 大维度评估 AI 安全

据介绍，评审专家从风险评估（Risk Assessment）、当前危害（Current Harms）、安全框架（Safety Frameworks）、生存性安全策略（Existential Safety Strategy）、治理和问责制（Governance & Accountability）以及透明度和沟通（Transparency & Communication）分别对每家公司进行评估，最后汇总得出安全指数总分。

维度 1：风险评估

在风险评估维度中，OpenAI、Google DeepMind 和 Anthropic 因在识别潜在危险能力（如网络攻击滥用或生物武器制造）方面实施更严格的测试而受到肯定。然而，报告也指出，这些努力仍存在显著局限，AGI 的相关风险尚未被充分理解。

OpenAI 的欺骗性能力评估和提升研究获得了评审专家的关注；Anthropic 则因与国家人工智能安全机构的深度合作被认为表现尤为突出。Google DeepMind 和 Anthropic 是仅有的两家维持针对模型漏洞的专项漏洞奖励计划的公司。Meta 尽管在模型部署前对危险能力进行了评估，但对自治、谋划和说服相关威胁模型的覆盖不足。智谱的风险评估相对不够全面，而 x.AI 在部署前的评估几乎缺失，大幅低于行业标准。

评审专家建议，行业应扩大研究的规模与范围，同时建立明确的可接受风险阈值标准，从而进一步提高人工智能模型的安全性和可靠性。

维度 2：当前危害

在当前危害维度中，Anthropic 的人工智能系统在安全性与信任度基准测试中得到了最高分，Google DeepMind 紧随其后，该公司的 Synth ID 水印系统被认可为减少人工智能生成内容滥用的最佳实践。

其他公司得分偏低，暴露出安全缓解措施的不足。例如，Meta 因公开前沿模型权重被批评，该做法可能被恶意行为者利用来移除安全防护。

此外，对抗性攻击仍是一个主要问题，多数模型易受越狱攻击，其中 OpenAI 的模型尤为脆弱，而 Google DeepMind 在此方面防御表现最佳。评审专家还指出，只有 Anthropic 和智谱在默认设置下避免将用户交互数据用于模型训练，这一实践值得其他公司借鉴。

维度 3：安全框架

在安全框架（Safety Frameworks）方面，所有 6 家公司均签署了《前沿人工智能安全承诺》，承诺制定安全框架，包括设置不可接受风险阈值、高风险场景下的高级防护措施，以及在风险不可控时暂停开发的条件。

然而，截至本报告发布，仅有 OpenAI、Anthropic 和 Google DeepMind 公布了相关框架，评审专家仅能对这三家公司进行评估。其中，Anthropic 因框架内容最为详尽而受到认可，其也发布了更多实施指导。

专家一致强调，安全框架必须通过强有力的外部审查和监督机制支持，才能真正实现对风险的准确评估和管理。

维度 4：生存性安全策略

在生存性安全策略维度，尽管所有公司均表示有意开发 AGI 或超级人工智能（ASI），并承认此类系统可能带来的生存性风险，但仅有 Google DeepMind、OpenAI 和 Anthropic 在控制与安全性方面开展了较为严肃的研究。

评审专家指出，目前没有公司提出官方策略以确保高级人工智能系统可控并符合人类价值观，现有的技术研究在控制性、对齐性和可解释性方面仍显稚嫩且不足。

Anthropic 凭借其详尽的 “Core Views on AI Safety” 博客文章获得最高分，但专家认为其策略难以有效防范超级人工智能的重大风险。OpenAI 的 “Planning for AGI and beyond” 博客文章则仅提供了高层次原则，虽被认为合理但缺乏实际计划，且其可扩展监督研究仍不成熟。Google DeepMind 的对齐团队分享的研究更新虽有用，但不足以确保安全性，博客内容也不能完全代表公司整体战略。

Meta、x.AI 和智谱尚未提出应对 AGI 风险的技术研究或计划。评审专家认为，Meta 的开源策略及 x.AI 的 “democratized access to truth-seeking AI” 愿景，可能在一定程度上缓解权力集中和价值固化的风险。

维度 5：治理和问责制

在治理和问责制维度，评审专家注意到，Anthropic 的创始人在建立负责任的治理结构方面投入了大量精力，这使其更有可能将安全放在首位。Anthropic 的其他积极努力，如负责任的扩展政策，也得到了积极评价。

OpenAI 最初的非营利结构也同样受到了称赞，但最近的变化，包括解散安全团队和转向营利模式，引起了人们对安全重要性下降的担忧。

Google DeepMind 在治理和问责方面迈出了重要一步，承诺实施安全框架，并公开表明其使命。然而，其隶属于 Alphabet 的盈利驱动企业结构，被认为在一定程度上限制了其在优先考虑安全性方面的自主性。

Meta 虽然在 CYBERSEC EVAL 和红队测试等领域有所行动，但其治理结构未能与安全优先级对齐。此外，开放源代码发布高级模型的做法，导致了滥用风险，进一步削弱了其问责制。

x.AI 虽然正式注册为一家公益公司，但与其竞争对手相比，在人工智能治理方面的积极性明显不足。专家们注意到，该公司在关键部署决策方面缺乏内部审查委员会，也没有公开报告任何实质性的风险评估。

智谱作为一家营利实体，在符合法律法规要求的前提下开展业务，但其治理机制的透明度仍然有限。

维度 6：透明度和沟通

在透明度和沟通维度，评审专家对 OpenAI、Google DeepMind 和 Meta 针对主要安全法规（包括 SB1047 和欧盟《人工智能法案》）所做的游说努力表示严重关切。与此形成鲜明对比的是，x.AI 因支持 SB1047 而受到表扬，表明了其积极支持旨在加强人工智能安全的监管措施的立场。

除 Meta 公司外，所有公司都因公开应对与先进人工智能相关的极端风险，以及努力向政策制定者和公众宣传这些问题而受到表扬。x.AI 和 Anthropic 在风险沟通方面表现突出。专家们还注意到，Anthropic 不断支持促进该行业透明度和问责制的治理举措。

Meta 公司的评级则受到其领导层一再忽视和轻视与极端人工智能风险有关的问题的显著影响，评审专家认为这是一个重大缺陷。

专家们强调，整个行业迫切需要提高透明度。x.AI 缺乏风险评估方面的信息共享被特别指出为透明度方面的不足。

Anthropic 允许英国和美国人工智能安全研究所对其模型进行第三方部署前评估，为行业最佳实践树立了标杆，因此获得了更多认可。

专家是如何打分的？

在指数设计上，6 大评估维度均包含多个关键指标，涵盖企业治理政策、外部模型评估实践以及安全性、公平性和鲁棒性的基准测试结果。这些指标的选择基于学术界和政策界的广泛认可，确保其在衡量公司安全实践上的相关性与可比性。

这些指标的主要纳入标准为：

相关性：清单强调了学术界和政策界广泛认可的人工智能安全和负责任行为的各个方面。许多指标直接来自斯坦福大学基础模型研究中心等领先研究机构开展的相关项目。
可比较性：选择的指标能够突出安全实践中的有意义的差异，这些差异可以根据现有的证据加以确定。因此，没有确凿差异证据的安全预防措施被省略了。

选择公司的依据是公司到 2025 年制造最强大模型的预期能力。此外，智谱的加入也反映了该指数希望能够代表全球领先公司的意图。随着竞争格局的演变，未来可能会关注不同的公司。

图｜评价指标概述。

此外，生命未来研究所在编制《AI 安全指数报告》时，构建了全面且透明的证据基础，确保评估结果科学可靠。研究团队根据 42 项关键指标，为每家公司制作了详细的评分表，并在附录中提供了所有原始数据的链接，供公众查阅与验证。证据来源包括：

公开信息：主要来自研究论文、政策文件、新闻报道和行业报告等公开材料，增强透明度的同时，便于利益相关方追溯信息来源。
公司问卷调查：针对被评估公司分发了问卷，补充公开数据未覆盖的安全结构、流程与策略等内部信息。

证据收集时间为 2024 年 5 月 14 日至 11 月 27 日，涵盖了最新的人工智能基准测试数据，并详细记录了数据提取时间以反映模型更新情况。生命未来研究所致力于以透明和问责为原则，将所有数据 —— 无论来自公开渠道还是公司提供 —— 完整记录并公开，供审查与研究使用。

评分流程方面，在 2024 年 11 月 27 日完成证据收集后，研究团队将汇总的评分表交由独立人工智能科学家和治理专家小组评审。评分表涵盖所有指标相关信息，并附有评分指引以确保一致性。

评审专家根据绝对标准为各公司打分，而非单纯进行横向比较。同时，专家需附上简短说明支持评分，并提供关键改进建议，以反映证据基础与其专业见解。生命未来研究所还邀请专家小组分工评估特定领域，如 “生存性安全策略” 和 “当前危害” 等，保证评分的专业性和深度。最终，每一领域的评分均由至少四位专家参与打分，并汇总为平均分后展示在评分卡中。

这一评分流程既注重结构化的标准化评估，又保留了灵活性，使专家的专业判断与实际数据充分结合。不仅展现当前安全实践的现状，还提出可行的改进方向，激励公司在未来达成更高的安全标准。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

机器之心

专业的人工智能媒体和产业服务平台

最新文章

刚刚，OpenAI放出最后大惊喜o3，高计算模式每任务花费数千美元

统一视觉理解与生成，MetaMorph模型问世，LeCun、谢赛宁、刘壮等参与

人会逆向思维，LLM也可以？DeepMind研究表明还能提升推理能力

重塑跨智能体灵巧手抓取，NUS邵林团队提出全新交互式表征，斩获CoRL Workshop最佳机器人论文奖

2025英伟达奖学金出炉，7位华人博士生入选，上交、中科大、浙大校友在列

图森未来陈默：自动驾驶无以为继，急转驶入AIGC游戏，已拿下金庸群侠传、三体IP | 智者访谈

智源发布FlagEval「百模」评测结果，丈量模型生态变局

推理最强也最快，谷歌发布Gemini 2.0 Flash Thinking，全面超越o1-preview

出手即王炸？照片级真实度生成式世界模型，还获得皮克斯和Jeff Dean投资

UniReal登场：用视频架构统一图像生成与编辑，还学到真实世界动态变化规律

刚刚，OpenAI元老级研究员Alec Radford离职，他主导了GPT-1、GPT-2的研发

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

震惊！Claude伪对齐率竟能高达78％，Anthropic 137页长论文自揭短

CMU把具身智能的机器人给越狱了

跨模态通信总丢失语义、产生歧义？加入AI大模型，LAM-MSC实现四模态统一高效传输

在线试玩 | 对齐、生成效果大增，文本驱动的风格转换迎来进阶版

微调时无需泄露数据或权重，这篇AAAI 2025论文提出的ScaleOT竟能保护隐私

Scaling Law撞墙？预训练终结？亚马逊云科技为什么还在做基础大模型

李飞飞团队统一动作与语言，新的多模态模型不仅超懂指令，还能读懂隐含情绪

英伟达下代RTX 50系列显卡规格被泄露，旗舰5090显存达32GB

Florence-VL来了！使用生成式视觉编码器，重新定义多模态大语言模型视觉信息

让多视角图像生成更轻松！北航和VAST推出MV-Adapter

AI大模型时代，人才的需求已经变了

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

OpenAI被偷家，谷歌Veo 2反超Sora

NeurIPS Spotlight | 基于信息论，决策模型有了全新预训练范式统一框架

USENIX Sec'25 | LLM提示词注入攻击如何防？UC伯克利、Meta最新研究来了

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

Kimi又上新！抢先实测视觉思考模型k1，甚至比o1更聪明

与1500多支国内外队伍同台竞技，快手在NeurIPS 2024顶级大赛中上演双杀

企业大模型落地关键是什么？这家领先的大模型技术和应用公司给出答案

AI病理助手来了！浙大OmniPT上岗，3秒锁定癌症病灶，准确率超95%

世界模型进入4D时代！单视角视频构建的自由视角4D世界来了

Bengio参与的首个《AI安全指数报告》出炉，最高分仅C、国内一家公司上榜

对话肖特特：从伯克利到PromptAI创业，发明创造下一代视觉智能

哗然！MIT教授NeurIPS演讲公开歧视中国学生，大会官方认错、本人道歉

预训练将结束？AI的下一步发展有何论调？Scaling Law 撞墙与否还重要吗？

决策过程是魔法还是科学？首个多模态大模型的可解释性综述全面深度剖析

Ilya Sutskever在NeurIPS炸裂宣判：预训练将结束，数据压榨到头了（全文+视频）

无人机：不是我想长腿，《Nature》论文说这样更省力

KDD2025 | 多标签节点分类场景下，阿里安全&浙大对图神经网络增强发起挑战

世界模型才是智驾唯一解？造车新势力们对于自动驾驶世界模型的探索路线有何异同？

Mamba作者带斯坦福同学、导师创业，Cartesia获2700万美元种子轮融资

OpenAI很会营销，而号称超强AI营销的灵感岛实测成效如何？

李飞飞：World Labs这样实现「空间智能」

扩散模型=流匹配？谷歌DeepMind博客深度详解这种惊人的等价性

多智能体架构Insight-V来了！突破长链视觉推理瓶颈

微软高剑峰、哈工大（深圳）张民等四位华人入选，2024 ACL Fellow名单公布

Sora之后，苹果发布视频生成大模型STIV，87亿参数一统T2V、TI2V任务

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉