2024人工智能合作与治理国际论坛 | 梁晖(Jade LEUNG):英国人工智能安全研究所概况

文摘   2025-01-08 20:50   北京  

点击蓝字

关注我们


2024人工智能合作与治理国际论坛于12月2-3日在新加坡国立大学召开。本届论坛由清华大学、新加坡国立大学和香港科技大学联合主办。其中,安远AI与新加坡的AI Verify基金会联合举办了多场人工智能安全专题论坛。

12月2日下午的“人工智能安全全体会议”上,英国人工智能安全研究所首席技术官梁晖(Jade LEUNG)介绍了英国人工智能安全研究所的使命,以及研究测试、国际合作等工作进展。她详细讨论了该机构在五大领域开展的安全测试工作,测试方法主要包括自动化基准测试、专家红队测试、人类提升试验和自主体评测。



大家好,非常高兴能来到这里,和大家分享英国人工智能安全研究所(AISI)过去一年的工作情况。我们成立于去年11月,是全球首个AISI研究机构,现在世界上已有多个类似的机构,例如新加坡的AISI研究机构,他们的工作也令人印象深刻。


为了更好地理解,我们需要稍微回顾一下背景。大家来到这个论坛,是因为过去十几年深度学习领域发生了革命性变化,特别是过去几年这一领域取得了显著进展。虽然我们经常谈论安全性问题和风险,但更应该思考解决这些问题的原因,这背后蕴含着巨大的潜力。如果能解决好安全和风险问题,这项技术带来的机会是令人兴奋的。

其中一个让我特别兴奋的领域是科学应用。最近,诺贝尔奖授予了Demis Hassabis和John Jumper,因为他们在AlphaFold项目中的贡献。这项技术能够预测蛋白质结构,几乎覆盖了全球范围的蛋白质,这一成就如果仅靠博士生研究可能需要上亿年的时间,而AI系统只用了不到一年时间就完成了。此外,还有一些更本地化的例子,例如伦敦大都会警方使用AI进行犯罪预测,欧洲的数字健康服务提供商Cera在医疗保健领域的预防性应用等。


我们注意到技术的发展如此之快。一年的人工智能进步让人感觉像是十年的成果。屏幕上显示了过去不到12个月内AI能力的显著提升,因此治理和安全面临的最大挑战之一是如何跟上技术发展的步伐。


接下来我要谈谈人工智能系统可能产生的安全问题和风险。过去一年,我们见证了许多实际的安全问题。例如在香港曾发生一起深度伪造的事件:一名男子因相信虚假的同事视频而被欺骗,汇出约2500万美元。英国和美国AISI做了多项网络攻击方面的研究,特别是社会工程攻击。这类事件显示了人工智能助长社会工程攻击的能力。


为应对这些问题,我们建立了英国人工智能安全研究所,使命是以实证和科学的方法来识别并量化风险,而不是仅进行推测。我们的目标是为政府——不仅是我们的政府,也包括全球政府——提供关于前沿人工智能系统安全问题的实证理解。


研究所成立于去年,初期资金1亿英镑,目前资金支持延续至2030。团队已发展到约170人,其中大多数为技术人员,他们来自Google DeepMind、OpenAI、Anthropic等知名实验室,以及多个学术机构。这种多元化团队让我们能够深入开展技术工作。


我们的工作主要集中在测试和评测方面,优先发展实证基础以识别安全问题。研究领域包括化学和生物的两用滥用、网络滥用、自主系统、安全保障措施,以及社会影响(如虚假信息、激进化和犯罪行为)。此外,我们评测了16个前沿模型,包括部署前和部署后评测,通过自主开发的工具进行实操,深入了解模型能力及其安全问题。


我们在进行测试和评测时使用多种不同的方法。自动化基准测试可能是人们最熟悉的方法,这是一种标准的静态数据集,可以提出不同类型的问题。我们发现,这在实际了解模型的功能方面非常有限,因此我们很快转向了其他方法。

例如,我们进行人类提升研究,设置了大规模人类提升试验,这就像一个随机对照试验,你让一个人尝试使用模型进行你可能担心的有害活动,然后有一个对照组,它只是使用互联网,你可以用它来衡量访问系统的效果差异。我们还进行了大量自主体评测工作,因此我们特别为自主体构建了脚手架,使其能够采取行动,并委托给不同的副本,诸如此类,这样我们就可以测试不同类型的自主体能力。最后我们进行专家红队测试,从政府内部和外部获取领域专家,以更深入地测试这些模型的能力。因此当我们进行评测时,我们基本上结合了这些不同的方法。


我们开发了名为INSPECT的开源评测平台,支持国际范围内的AI安全研究机构和实验室使用。

希望这能让人们能够非常轻松地进行评测,特别是自主体评测,这是我们目前最关注的领域,我们还开源了一组INSPECT评测,这是人们通常使用的最常见基准测试集,只需单击就能全面评测模型的方法,这就是我们现在的技术工作。


最后,我想强调国际合作的重要性。人工智能安全问题需要跨国界的协作,单靠一个国家无法独立解决这些问题。去年11月,我们举办了首届人工智能安全峰会,汇集了包括中国和新加坡在内的多个国家代表。今年5月,我们又联合主办了人工智能首尔峰会,进一步推动国际合作。


我们还启动了《先进人工智能安全国际科学报告》,这一报告类似于IPCC的气候变化报告,旨在为多国科学共识提供基础。首份中期报告已经发布,完整报告将于明年初的法国峰会上正式发布。我们相信,通过科学技术的国际合作,我们能够更好地应对人工智能技术的安全挑战。


大约两周前,第一届人工智能安全研究所网络会议在旧金山举行,这是一个真正具有历史意义的时刻,不仅人工智能安全研究所,还有民间社会、学术界等,都聚集在一起,庆祝这一事实。现在除了英国的安全研究所之外,还有10个其他安全研究所,我认为这些组织可以开始就各种类型的问题展开合作,特别是再次关注科学和技术合作,我认为这是非常关键的,所以这是一个非常有趣的活动。


然后,特别是因为我们相聚在这里,值得庆祝的是英国和新加坡签署了一份合作备忘录,列出了两国正在双边合作的几个不同领域,包括研究测试、制定规范以及最佳实践,所以真的很高兴。


现在签署合作备忘录是一个很好的开端,但我认为真正的考验是能否在实践中真正完成任何事情,幸运的是,我们能够与新加坡AISI以及美国AISI合作进行三边概念验证联合测试,目前是一个非常简单的概念验证,让三个AISI共同合作,使用公共基准测试开源模型,但它确实展示了几个不同。

我认为一个关键是它证明了在组织之间就方法论和互操作性进行科学对话非常重要,因此在实际运行这个概念验证的过程中,我们确定了我们可以在组织之间进行技术层面讨论的许多不同领域,这确实很有成效,然后我认为它说明的另一个关键是,它是一种构建模块的时刻,朝着一个政府可以合作、相互认可的世界努力,旨在实现前沿模型的互操作测试和评估,所以这是我们所做的第一个概念验证,然后将会进行进一步的概念验证,不仅在英国、美国和新加坡之间,而且在所有AISI网络国家之间,这将使我们对联合测试达到一个可以在法国峰会上树立里程碑的地步。


最后是关于国际合作,这不仅仅关乎国家,很多时候公司也非常重要,所以在首尔峰会上,当时有16家公司签署了一项承诺,从那时起,越来越多的公司签署了这项协议,这被称为《前沿人工智能安全承诺》,这基本上签署了这些公司自愿承诺制定安全框架,该框架制定了各种不同的指导方针,他们应该在安全开发和部署模型方面遵循这些指导方针,所以你会看到屏幕上有几家公司,这是一个非常国际化的公司集合,所以我们也认为我们的角色是让公司参与进来进行国际合作,而不仅仅是国家之间合作。

所以这是一个非常快速的概述我们一直在做的工作。但正如薛澜教授和其他人所说,我认为这是真正富有成效的一年,我认为真正的考验是你能否保持势头并在接下来的几年里完成一些工作,我们真的充满希望,像这样的事件也让我们充满希望,非常感谢!



关 于 我 们



清华大学人工智能国际治理研究院(Institute for AI International Governance, Tsinghua University,THU I-AIIG)是2020年4月由清华大学成立的校级科研机构。依托清华大学在人工智能与国际治理方面的已有积累和跨学科优势,研究院面向人工智能国际治理重大理论问题及政策需求开展研究,致力于提升清华在该领域的全球学术影响力和政策引领作用,为中国积极参与人工智能国际治理提供智力支撑。



新浪微博:@清华大学人工智能国际治理研究院

微信视频号:THU-AIIG

Bilibili:清华大学AIIG


来源 | 本文转载自“安远AI”,点击“阅读原文”获取更多内容

清华大学人工智能国际治理研究院
依托清华大学在人工智能与国际治理方面的已有积累和跨学科优势,面向人工智能国际治理重大理论问题及政策需求开展研究。
 最新文章