2024人工智能合作与治理国际论坛 | 梁晖（Jade LEUNG）：英国人工智能安全研究所概况

文摘 2025-01-08 20:50 北京

点击蓝字

关注我们

2024人工智能合作与治理国际论坛于12月2-3日在新加坡国立大学召开。本届论坛由清华大学、新加坡国立大学和香港科技大学联合主办。其中，安远AI与新加坡的AI Verify基金会联合举办了多场人工智能安全专题论坛。

12月2日下午的“人工智能安全全体会议”上，英国人工智能安全研究所首席技术官梁晖（Jade LEUNG）介绍了英国人工智能安全研究所的使命，以及研究测试、国际合作等工作进展。她详细讨论了该机构在五大领域开展的安全测试工作，测试方法主要包括自动化基准测试、专家红队测试、人类提升试验和自主体评测。

大家好，非常高兴能来到这里，和大家分享英国人工智能安全研究所(AISI)过去一年的工作情况。我们成立于去年11月，是全球首个AISI研究机构，现在世界上已有多个类似的机构，例如新加坡的AISI研究机构，他们的工作也令人印象深刻。

为了更好地理解，我们需要稍微回顾一下背景。大家来到这个论坛，是因为过去十几年深度学习领域发生了革命性变化，特别是过去几年这一领域取得了显著进展。虽然我们经常谈论安全性问题和风险，但更应该思考解决这些问题的原因，这背后蕴含着巨大的潜力。如果能解决好安全和风险问题，这项技术带来的机会是令人兴奋的。

其中一个让我特别兴奋的领域是科学应用。最近，诺贝尔奖授予了Demis Hassabis和John Jumper，因为他们在AlphaFold项目中的贡献。这项技术能够预测蛋白质结构，几乎覆盖了全球范围的蛋白质，这一成就如果仅靠博士生研究可能需要上亿年的时间，而AI系统只用了不到一年时间就完成了。此外，还有一些更本地化的例子，例如伦敦大都会警方使用AI进行犯罪预测，欧洲的数字健康服务提供商Cera在医疗保健领域的预防性应用等。

我们注意到技术的发展如此之快。一年的人工智能进步让人感觉像是十年的成果。屏幕上显示了过去不到12个月内AI能力的显著提升，因此治理和安全面临的最大挑战之一是如何跟上技术发展的步伐。

接下来我要谈谈人工智能系统可能产生的安全问题和风险。过去一年，我们见证了许多实际的安全问题。例如在香港曾发生一起深度伪造的事件：一名男子因相信虚假的同事视频而被欺骗，汇出约2500万美元。英国和美国AISI做了多项网络攻击方面的研究，特别是社会工程攻击。这类事件显示了人工智能助长社会工程攻击的能力。

为应对这些问题，我们建立了英国人工智能安全研究所，使命是以实证和科学的方法来识别并量化风险，而不是仅进行推测。我们的目标是为政府——不仅是我们的政府，也包括全球政府——提供关于前沿人工智能系统安全问题的实证理解。

研究所成立于去年，初期资金1亿英镑，目前资金支持延续至2030。团队已发展到约170人，其中大多数为技术人员，他们来自Google DeepMind、OpenAI、Anthropic等知名实验室，以及多个学术机构。这种多元化团队让我们能够深入开展技术工作。

我们的工作主要集中在测试和评测方面，优先发展实证基础以识别安全问题。研究领域包括化学和生物的两用滥用、网络滥用、自主系统、安全保障措施，以及社会影响（如虚假信息、激进化和犯罪行为）。此外，我们评测了16个前沿模型，包括部署前和部署后评测，通过自主开发的工具进行实操，深入了解模型能力及其安全问题。

我们在进行测试和评测时使用多种不同的方法。自动化基准测试可能是人们最熟悉的方法，这是一种标准的静态数据集，可以提出不同类型的问题。我们发现，这在实际了解模型的功能方面非常有限，因此我们很快转向了其他方法。

例如，我们进行人类提升研究，设置了大规模人类提升试验，这就像一个随机对照试验，你让一个人尝试使用模型进行你可能担心的有害活动，然后有一个对照组，它只是使用互联网，你可以用它来衡量访问系统的效果差异。我们还进行了大量自主体评测工作，因此我们特别为自主体构建了脚手架，使其能够采取行动，并委托给不同的副本，诸如此类，这样我们就可以测试不同类型的自主体能力。最后我们进行专家红队测试，从政府内部和外部获取领域专家，以更深入地测试这些模型的能力。因此当我们进行评测时，我们基本上结合了这些不同的方法。

我们开发了名为INSPECT的开源评测平台，支持国际范围内的AI安全研究机构和实验室使用。

希望这能让人们能够非常轻松地进行评测，特别是自主体评测，这是我们目前最关注的领域，我们还开源了一组INSPECT评测，这是人们通常使用的最常见基准测试集，只需单击就能全面评测模型的方法，这就是我们现在的技术工作。

最后，我想强调国际合作的重要性。人工智能安全问题需要跨国界的协作，单靠一个国家无法独立解决这些问题。去年11月，我们举办了首届人工智能安全峰会，汇集了包括中国和新加坡在内的多个国家代表。今年5月，我们又联合主办了人工智能首尔峰会，进一步推动国际合作。

我们还启动了《先进人工智能安全国际科学报告》，这一报告类似于IPCC的气候变化报告，旨在为多国科学共识提供基础。首份中期报告已经发布，完整报告将于明年初的法国峰会上正式发布。我们相信，通过科学技术的国际合作，我们能够更好地应对人工智能技术的安全挑战。

大约两周前，第一届人工智能安全研究所网络会议在旧金山举行，这是一个真正具有历史意义的时刻，不仅人工智能安全研究所，还有民间社会、学术界等，都聚集在一起，庆祝这一事实。现在除了英国的安全研究所之外，还有10个其他安全研究所，我认为这些组织可以开始就各种类型的问题展开合作，特别是再次关注科学和技术合作，我认为这是非常关键的，所以这是一个非常有趣的活动。

然后，特别是因为我们相聚在这里，值得庆祝的是英国和新加坡签署了一份合作备忘录，列出了两国正在双边合作的几个不同领域，包括研究测试、制定规范以及最佳实践，所以真的很高兴。

现在签署合作备忘录是一个很好的开端，但我认为真正的考验是能否在实践中真正完成任何事情，幸运的是，我们能够与新加坡AISI以及美国AISI合作进行三边概念验证联合测试，目前是一个非常简单的概念验证，让三个AISI共同合作，使用公共基准测试开源模型，但它确实展示了几个不同。

我认为一个关键是它证明了在组织之间就方法论和互操作性进行科学对话非常重要，因此在实际运行这个概念验证的过程中，我们确定了我们可以在组织之间进行技术层面讨论的许多不同领域，这确实很有成效，然后我认为它说明的另一个关键是，它是一种构建模块的时刻，朝着一个政府可以合作、相互认可的世界努力，旨在实现前沿模型的互操作测试和评估，所以这是我们所做的第一个概念验证，然后将会进行进一步的概念验证，不仅在英国、美国和新加坡之间，而且在所有AISI网络国家之间，这将使我们对联合测试达到一个可以在法国峰会上树立里程碑的地步。

最后是关于国际合作，这不仅仅关乎国家，很多时候公司也非常重要，所以在首尔峰会上，当时有16家公司签署了一项承诺，从那时起，越来越多的公司签署了这项协议，这被称为《前沿人工智能安全承诺》，这基本上签署了这些公司自愿承诺制定安全框架，该框架制定了各种不同的指导方针，他们应该在安全开发和部署模型方面遵循这些指导方针，所以你会看到屏幕上有几家公司，这是一个非常国际化的公司集合，所以我们也认为我们的角色是让公司参与进来进行国际合作，而不仅仅是国家之间合作。

所以这是一个非常快速的概述我们一直在做的工作。但正如薛澜教授和其他人所说，我认为这是真正富有成效的一年，我认为真正的考验是你能否保持势头并在接下来的几年里完成一些工作，我们真的充满希望，像这样的事件也让我们充满希望，非常感谢！

关于我们

清华大学人工智能国际治理研究院（Institute for AI International Governance, Tsinghua University，THU I-AIIG）是2020年4月由清华大学成立的校级科研机构。依托清华大学在人工智能与国际治理方面的已有积累和跨学科优势，研究院面向人工智能国际治理重大理论问题及政策需求开展研究，致力于提升清华在该领域的全球学术影响力和政策引领作用，为中国积极参与人工智能国际治理提供智力支撑。

新浪微博：@清华大学人工智能国际治理研究院

微信视频号：THU-AIIG

Bilibili：清华大学AIIG

来源 | 本文转载自“安远AI”，点击“阅读原文”获取更多内容

清华大学人工智能国际治理研究院

依托清华大学在人工智能与国际治理方面的已有积累和跨学科优势，面向人工智能国际治理重大理论问题及政策需求开展研究。

最新文章

在清华，遇见AI！

2024人工智能合作与治理国际论坛 | 梁晖（Jade LEUNG）：英国人工智能安全研究所概况

深度解析腾讯、宁德进入美国军方“黑名单”:动因、趋势和应对【AI战略洞察】

张钹院士：通用人工智能是第三代人工智能的发展方向

2024人工智能合作与治理国际论坛｜林国恩：新加坡人工智能安全研究所概况

【AI治理周报-1月第1周】普华永道发布2025年人工智能领域6大预测报告

清华大学人工智能国际治理研究院 2024年度管委会顺利召开

报名丨Risk Sciences系列学术论坛——全球经济不确定性与应对研讨会

孟庆国教授就人工智能监管话题接受《文汇报》采访

你好2025！清华大学人工智能国际治理研究院祝您新年快乐！

2024清华大学人工智能国际治理研究院大事记

制定全球人工智能“游戏规则”，中国不能缺席

【AI治理周报-12月第5周】上海印发《关于人工智能“模塑申城”的实施方案》

梁正教授受邀出席科技伦理与合规发展分论坛

梁正教授受邀出席清华大学“卫生健康事业创新实践研修班”并授课

梁正 | 为什么AI替代不了人类？

万字回顾+全程视频｜2024人工智能合作与治理国际论坛“人工智能安全全体会议”在新加坡成功举办

开班在即丨人工智能国家战略与政策前沿研修班

中国-拉加地区生产力发展政策协同效应研讨论坛成功举办

新华社 | 走好AI时代这三步：更好用、防滥用、求善用

中美科技关系走向：中国对美科技反制措施【AI战略洞察】

国家知识产权局新举措助力科技成果转化【AI知识库】

【AI治理周报-12月第4周】2024年美国联邦人工智能用例达1700余个

梁正教授受邀参加第三届“中欧二轨高级别视频对话会议”并发言

活动预告 | 中国信通院“科技伦理与合规发展”分论坛

清华大学校长李路明率团访问香港科技大学

张亚勤向清华学子分享新时代人工智能的发展方向以及青年在新技术潮流中的学业规划与职业选择

“AI＋创业精英实训营”课程回顾 | 清华大学文科资深教授薛澜揭示人工智能的发展与治理

构建标准体系：人工智能标准化推动中国技术创新与全球竞争力提升【AI战略洞察】

周伯文 | 以通专融合方式构建AGI——路径与关键问题探索

美国计划授权谷歌等科技巨头管制AI芯片出口【AI战略洞察】

清华大学副校长杨斌率团访问新加坡、香港进一步深化教育合作交流

解放日报：中国AI大模型发展前景如何？图灵奖得主姚期智带来“好消息”｜浦江AI学术年会

硅谷+国防？OpenAI与Anduril Industries合作对美国军事技术的影响分析【AI知识库】

【AI治理周报-12月第3周】三季度全球半导体行业收入达1582亿美元同比增长17%

活动预告 | 人工智能驱动未来政府：公民与公务员对人机协作智能政府的观点-公共政策讲堂第7期暨第450期学术人生

前沿人工智能四大优势，开启高效便捷新时代

“数字经济和人工智能领域的国际投资研讨会”在清华大学成功举办

工信部助力人工智能中小企业，推动产业发展壮大【AI战略洞察】

布伦丹·卡尔出任联邦通信委员会主席：对美国AI及科技产业的影响【AI知识库】

前沿人工智能四大优势，开启高效便捷新时代

国家高新区人工智能产业协同创新网络成立:中国AI产业发展的新动力【AI战略洞察】

芯片战争白热化：从英伟达被查说起，中美科技博弈进入深水区【AI战略洞察】

2024人工智能合作与治理国际论坛“人工智能安全”专题论坛在新加坡成功举办

2024人工智能合作与治理国际论坛“圆桌对话”: 行业、监管机构和第三方公司在人工智能安全的相互作用

2024人工智能合作与治理国际论坛，共话AI未来

【AI治理周报-12月第2周】全球人工智能基础设施支出将逐年增加，预计2028年超1000亿美元

2024人工智能合作与治理国际论坛“圆桌对话”: 公共部门与人工智能

2024人工智能合作与治理国际论坛“智能时代的工作与教育”专题论坛成功举办

2024人工智能合作与治理国际论坛“圆桌对话”：人工智能赋能可持续发展

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉