万字回顾+全程视频|2024人工智能合作与治理国际论坛“人工智能安全全体会议”在新加坡成功举办

文摘   2024-12-26 21:21   北京  

2024人工智能合作与治理国际论坛于12月2-3日在新加坡国立大学召开。本届论坛由清华大学、新加坡国立大学和香港科技大学联合主办。其中,安远AI与新加坡的AI Verify基金会联合举办了多场人工智能安全专题论坛。

12月2日下午的“人工智能安全全体会议”上,新加坡人工智能安全研究所所长林国恩(LAM Kwok Yan),清华大学人工智能国际治理研究院院长薛澜,英国人工智能安全研究所首席技术官梁晖(Jade LEUNG),清华大学教授、智谱AI首席科学家唐杰,欧盟人工智能办公室人工智能安全技术官弗里德里克·格罗斯-霍尔茨(Friederike GROSSE-HOLZ)应邀出席并作精彩发言。安远AI CEO谢旻希担任“人工智能安全全体会议”的圆桌讨论主持。安远AI高级研究经理、清华大学苏世民书院学者周杰晟介绍论坛背景和嘉宾。



主旨发言

林国恩(LAM Kwok Yan)主旨演讲


新加坡数字信任中心和新加坡人工智能安全研究所(AISI)执行董事林国恩以TrustTech视角介绍了新加坡人工智能安全研究所的整体布局。从整体目标上,致力于弥合全球人工智能安全科学的差距,并为新加坡构建科学的人工智能治理基础。在机构设置方面,主要由新加坡信息通信媒体发展局(IMDA)和新加坡数字信任中心(DTC)负责,该中心成立于2022年10月,并于2024年5月被新加坡政府正式确立为新加坡人工智能安全研究所(AISI)。从研究领域上,新加坡人工智能安全研究所的工作涵盖四个核心领域:测试和评估、安全模型设计和部署、内容保证,以及治理和政策。在实现步骤上,首先从技术层面明确可信赖人工智能的定义及相关概念,其次从社会需求出发界定负责任人工智能的内涵,包括公平性和可解释性等要素。林国恩特别强调,要将人工智能系统视为社会技术系统,通过跨组织安全协作和加强学术研究与实际应用的结合,增强系统稳健性,并通过国际合作共同应对基础模型可能带来的全球性风险和挑战。


薛澜(XUE Lan)主旨演讲

薛澜院长指出,中国很多人工智能机构正在从事人工智能安全研究,且形成了一个网络体系。这些机构在以下方面形成共识:1)人工智能安全和发展应同时推进,并在联合国体系下构建一个平衡、有效和可持续的全球人工智能安全治理框架。2)坚持非歧视的公平原则,致力于开发全球可互操作的人工智能安全研究、风险测试及评估框架、标准和充分考虑到发展中国家利益的治理体系。3)加强人工智能数据安全和隐私保护的国际合作,促进合法、有序和自由的跨境数据流动。4)在尊重国际法和各国法律的前提下,加强国际企业协调,防止人工智能误用、滥用和恶意使用。5)增加人工智能安全技术研发的投资和国际合作,防止人工智能的失控风险。6)加强人工智能政策沟通和实践分享,中国愿意在人工智能安全峰会框架内与人工智能技术领先国家和发展中国家合作,加强战略对接和政策交流。7)加强发展中国家的人工智能能力建设,实现人工智能安全的全球共享。


梁晖(Jade LEUNG)主旨演讲

英国人工智能安全研究所(UK AISI)首席技术官梁晖提到当前需要关注人工智能安全与风险有两个理由:第一,消除人工智能安全风险后,人类才可以充分享受人工智能带来的巨大收益。例如,此次诺贝尔奖就充分展示了人工智能对科技的促进作用;第二,人工智能系统的快速进展已经超过安全和治理的速度。她详细讨论了该机构在五大领域开展的人工智能安全测试工作。测试方法主要包括自动化基准测试、专家红队测试、人类提升试验和自主体评测。这五个领域分别是化学/生物滥用、网络滥用、自主系统、安全保障措施以及社会影响。她还重点介绍了UK AISI开发的开源测试平台INSPECT,以及英国、美国和新加坡三国AISI机构间的联合测试工作。梁晖还分享了UK AISI在国际合作方面的努力,包括邀请多个国家参与人工智能安全峰会、委托撰写《先进人工智能安全国际科学报告》,以及与企业达成《前沿人工智能安全承诺》


唐杰(TANG Jie)主旨演讲

清华大学教授、智谱AI首席科学家唐杰首先比对了GPT和GLM两大模型体系的不同,并强调其在多领域应用中已展现出的显著特点,尤其在工具调用(Agents)方面。针对人工智能安全性问题,唐杰指出,现有语言模型通过受限行为机制避免潜在风险,例如拒绝非法或有害内容请求。然而,越狱攻击通过修改提示引诱模型绕过安全限制,揭示了模型防护机制的薄弱环节。为应对这一挑战,研究团队开发了安全性评估工具,以系统化评估模型在内容生成过程中的伦理性与安全性,旨在提升模型的道德性与可靠性。唐杰进一步强调,未来人工智能系统可能变得更有自主性,例如通过手机端执行复杂命令,这将带来更大的隐私和安全风险。他呼吁业界重视平衡技术便利与安全性问题,以安全且高效的方式迈进AGI。


弗里德里克·格罗斯-霍尔茨(Friederike GROSSE-HOLZ)视频演讲

来自欧盟人工智能办公室人工智能安全部门的格罗斯-霍尔茨(Friederike Grosse-Holz)就欧盟监管通用型人工智能模型的方法发表了线上演讲。她系统性阐述了欧盟《人工智能法》的核心框架和治理目标,特别是第5章通过即将出台的《通用型人工智能行为守则》确立了关键的监管框架。这些法规要求人工智能提供商保持透明度,要求他们在遵守欧盟版权法的同时,与欧盟人工智能办公室和下游提供商共享具体的模型信息。对于被认定存在系统性风险的模型,提供商必须进行全面的风险评估并实施适当的缓解措施。最后,她还呼吁国际社会共同完善治理框架,推动全球AI治理标准化,并欢迎多方对《行为守则》初稿的反馈。


圆桌讨论

主旨演讲结束后,几位主旨演讲嘉宾加入了圆桌讨论环节。圆桌讨论由安远AI创始人和CEO谢旻希主持。围绕AI风险的总体思路和科学评估、AI安全测试和标准、AI风险缓解方案等等展开了讨论,并对2025年全球人工智能安全的愿景进行了展望。

AI安全发展趋势与科学评估方法

谢旻希:两年前,随着ChatGPT的发布,国际社会开始将AI安全提上全球议程。展望未来几年,几个重要的发展可能会影响AI风险的性质和紧迫性。例如前沿模型的进一步扩展、多模态基础模型、日益自主的AI自主体,以及AI驱动的科学发现等。在通向AGI的道路上,您认为哪些发展对全球AI安全最为重要?

唐杰:AI有不同的发展层次。首先,AI可以使用语言;其次,AI可以进行推理;第三,AI可以使用工具。在我看来,AI能自我学习,能通过不同的反馈数据进行自我学习,这是非常重要的。最后的层次可能就是AGI。


关于AI安全,也应该与这些不同的发展层次相对应。比如,我们去年和很多人讨论过,我们在开发大型语言模型时投入了多少精力,这些投入与我们在安全方面投入的精力是否相匹配?因此,随着AI水平的提高,安全的投入也应该相应增加。

谢旻希:在生物技术领域,实验室一般分为四个生物安全等级,风险和安全要求逐步增加。

谢旻希:首届全球人工智能安全峰会启动了《先进人工智能安全国际科学报告》,最近联合国也通过了《全球数字契约》,提出了建立国际AI科学委员会的建议。这两个项目都强调了国际科学共识和评估的重要性。如何更好地识别、优先考虑并就AI的潜在风险与机遇达成共识?

林国恩(LAM Kwok Yan)过去一年多,我们在AI安全的各个方面,特别是在有害内容检测上进行了非常密集的工作。所谓“有害内容”并不意味着其一定违法,但根据部署环境、社区或用户的不同,它可能会被视为不希望出现的内容。我们正致力于检测这种内容的生成,并通过增强模型来加以防范。

国际合作方面,过去几个月我们与美国和英国的AISI进行了联合测试,这是一个富有成果的过程。起初,当我们讨论AI安全时,每个国家或地区有不同的理解和测试目标,但当我们进行国际联合测试时,我们必须建立共同的语言和理解。在测试过程中,即便是一些看似微不足道的问题,在跨国互操作性上却可能成为影响整体结果的关键。因此,这段经历非常重要,尽管AI安全的目标远大,但我们必须从小处着手。过去几个月的经验将有助于我们将AI安全转化为更系统、更科学的应对策略。

薛澜:作为一个非技术人员,我更倾向于从政策角度来看待这一问题。我认为,国际科学界共同合作是一个非常重要的方向。我们确实可以从气候变化的应对经验中吸取教训,IPCC为我们提供了一个关键的参考,帮助我们理解当前的状况、哪些措施有效、哪些措施无效,以及如何向前推进。当然,AI带来的风险与气候变化不同,我们不能像应对气候变化那样等待五年,五个月甚至都可能太长。因此,我们确实需要一些国际机制,使全球科学界能够共同努力,这一点非常必要。

此外,我认为AI安全研究所网络是一个很好的尝试,但可能还不够。例如,虽然我自己没有从事这一领域的研究,但我曾从事过危机管理工作。在应对潜在风险时,有多种方法可以考虑,其中之一是情景规划。AI安全领域也应该采用类似的思路,考虑各种可能出现的风险和应对策略。我们在危机管理中常常会制定应急预案,即在某些特定情境发生时,我们如何做好准备、如何应对等。这个应急管理的经验对于AI安全也可能有很大帮助。因此,我认为如果能够建立一个更广泛的平台,邀请更多科学界成员参与进来,定能加强我们在实现AI安全方面的努力。

谢旻希:同意AI风险的科学评估需至少每6个月进行,气候变化中的IPCC报告不仅仅是量化风险分析,也有情景规划——共享社会经济路径(Shared Socioeconomic Pathways),值得借鉴。

梁晖(Jade LEUNG):当前AI安全风险评估领域面临着诸多根本性挑战。最突出的问题是缺乏一个系统化的评估框架,无法准确界定评估对象和关注重点。虽然业界对潜在风险有初步认知,但在风险形成机制和危害传导路径等深层问题上,尚未形成广泛共识,相关研究也相对不足。这导致风险建模方法学基础薄弱。

另外,评估方法的开发也缺乏系统性。我们的技术工作技术团队往往需要从零开始探索新的评估方法。机器学习社区现有的评估方法比较表面,无法真正准确反映风险。这凸显出方法论创新的紧迫性。我们需要从定制化方法转向更系统化、可复制的方法,以获取更有价值的洞见。

更为根本的挑战在于AI模型表现的不确定性。在能力评估中,模型往往展现出难以预测的行为模式。这要求我们对模型表现的分布规律有更深入的理解,从而做出更准确的风险判断。尽管推进这项工作困难重重,但为了建立可靠的实证基础,支撑行业共识的形成,我们必须投入更多资源和人力,持续改进评估工具和实证方法。这是确保AI安全发展的重要基石。

划定风险红线和防范AI欺骗性行为

谢旻希:在收集更多实证证据的同时,我们也可以提前定义一些红线和风险阈值。有几位嘉宾曾参与了“北京AI安全国际对话”,并对AI风险划出了一条红线。是否可以进一步阐述红线策略在确保AI安全方面的作用?

薛澜:我记得其中一条红线是我们必须防止系统试图欺骗人类。我的理解是,有些系统可能会假装听从你的指令,然后试图欺骗你,这种情况应该被加以防止。

梁晖(Jade LEUNG):我认为设定风险阈值或红线的做法非常有用,这种做法能让全球社区清晰地认识到我们的评估对象和目标。这不仅仅是为了避免部署系统或中止某些功能。更重要的是帮助我们识别那些需要加强防护的关键领域。尤其是当AI系统可能具备欺骗等高风险能力时,我们必须建立更为严密的安全机制。以确保即便系统理论上可以欺骗其人类监督者,但实际上由于安全保障措施的不同,它们可能无法做到这一点。

从某种程度上,我把红线看作是一种方法,用来帮助我们判断AI的能力与安全是否相称,以及这两者的科学发展是否能够相互匹配。这对全球社区尤其重要,因为如果我们不达成共识,各国可能会依据不同的标准进行评估,这将严重影响全球AI安全标准的有效制定和实施。

薛澜:我追问一下。作为人类,我们在多大程度上应当警惕和防范人工智能发展出欺骗性行为的能力?AI系统本身是否能够主动发展这种能力?比如,我们现在已经有一些具备外部学习能力的系统,那这些系统有可能自发发展出欺骗其他系统或者人类的能力吗?换句话说,欺骗是我们人类有意去开发的,还是系统本身有潜力涌现的特性?

梁晖(Jade LEUNG):我认为“欺骗”概念可以包含多个含义。从某种程度上来说,当前模型已经展示了某些形式的“奉承”行为。比如,某些模型会试图迎合用户,因此如果用户询问一个问题,假设用户相信地球是平的,而系统可能会接受这个前提,甚至为此提供支持的回答。虽然并非所有模型都会如此,但这种迎合用户偏见的倾向,即便这些偏见与事实相悖,也可以被视作一种基础层面的"欺骗"行为,这在现有系统中已经存在。

至于更深层次的欺骗,比如“情境感知”,这是一种假设:如果模型具有足够的认知能力,能够意识到自己是一个模型,知道自己在某个计算集群上运行,知道自己由某家公司训练,这时它就有可能利用这些认知去欺骗监督者。然而,目前的模型并不具备这种高度的“感知能力”。

我认为目前重要的是开发一些工具,以评估我们是否接近这些潜在能力。一旦这些能力真正显现,将会带来诸多挑战,—因为如果我们无法确定一个AI模型是否在试图欺骗其人类监管者,那么未来的AI治理将面临更为严峻的考验。

唐杰:我个人确实相信AGI。如果问及我的立场(AI是否可以发展出欺骗性行为的能力),我的答案毫无疑问是肯定的。然而,当前确实面临诸多挑战,尤其是在安全性方面。我相信未来的AI可以自我开发某些工具和系统。而最关键的问题在于:我们如何准确评估这些系统的实际能力?正如Jade提到的,可能最重要的是定义一些度量标准,用以衡量AI在自我反思、自主学习、独立思考和自我批判等方面的能力水平。

与此同时,我们还需要开发一种综合的系统,这个系统可以基于这些标准评估不同的AI系统,来判断它们是否已跨越了某些红线。对我而言,未来最重要的不是开发出单纯的“检测系统”,而是建立一个标准体系,类似于“你已经跨越了这条红线”,这个红线就是标准本身。

AI与物理世界和人类交互的安全视角

林国恩(LAM Kwok Yan):有一点我想补充,欺骗如果是一个创造虚假信息的过程,让它看起来尽可能真实,以至于让人无法辨别其真假,这是从实施欺骗者的视角来理解这一行为。

但从接受者的角度来看,欺骗是否能够得逞很大程度上取决于接收者的辨识能力。欺骗行为之所以能够奏效,往往是因为施骗者与受害者之间存在信息不对称。所以,当我们谈论让AI自我训练来增强欺骗能力时,我们也必须假设接受者有能力利用某些工具来验证信息,尤其是AI可能会协助接受者识别这种欺骗。

如果仅仅是AI与普通人类对抗,这种欺骗确实可能成立。但如果我们从防御角度考虑,未来可能会有工具来帮助接受者减少信息不对称,这就使得攻击者的欺骗行为变得更加困难。


谢旻希:从另一个角度来看,我们可以思考当AI系统在不同场景中部署时可能带来的影响。您认为在下游应用中,是否有一些需要特别优先考虑的安全攸关行业,尤其是需要建立安全保障和抗风险能力的领域?

林国恩(LAM Kwok Yan):关于安全攸关行业这一问题,我可以从两个角度来解读。首先是传统意义上的安全攸关系统,比如自动驾驶、智能制造等领域。这些AI驱动的系统一旦发生故障,可能威胁到人类生命。如果AI模型遭到恶意篡改或感染,其决策偏差可能引发严重后果。因此,在AI应用于这类可能威胁生命安全的场景时,安全保障机制尤为重要。同样,网络安全领域中的关键基础设施也属于这一范畴。鉴于AI在这些领域应用所涉及的复杂风险,我们必须给予特别关注。

其次,从AI系统自身的安全性视角来看,安全攸关特性主要体现在AI与物理世界、人类的直接交互环节。无论AI技术如何发展,人类始终需要维护其赖以运行的物理基础设施,这种交互是不可避免的。如果AI系统具有欺骗人类的可能性,那么这类人机接口就成为关键的安全节点。因此,在AI系统与物理实体的交互界面处,构建完善的安全防护机制至关重要。

下一代AI安全的重点研究方向

谢旻希:如何为先进的AI系统建立安全保障?大型语言模型目前仍然非常容易受到越狱攻击。如果我们回顾深度学习系统的发展历程,尽管过去七到八年有成千上万篇相关论文,但对抗攻击问题依然存在。那么,您认为在未来,我们应该如何加强AI模型的防御能力?

唐杰:关于您提到的自学习系统,我依然在思考这个问题。对于下一代AI的开发来说,自学习是至关重要的。可以说,O1的强化学习等方法只是其中的一部分,而整体的自学习系统才是最关键的,这是发展下一代AI的核心。

然而,如何防御这些系统也是一个问题。实际上,防御机制本身也可以依赖于自学习系统。也就是说,防御机制和攻击机制可以共享某些机制。例如,当我们构建自学习系统时,防御系统也必须具备自适应能力,这样才能有效应对潜在的威胁。

从我个人的角度来看,自学习系统是未来保障AI安全的最重要方式。通过自学习,AI系统可以在面对新的威胁时及时调整,并做出自我保护。

梁晖(Jade LEUNG):是的,我觉得AI安全研究有很多值得关注的领域,其中有些领域目前的投入相对较少。比如,对齐研究就是一个相对被忽视的领域。目前我们对齐AI系统的方法主要是通过人类反馈的强化学习(RLHF)或其变种,但显然这种方法在面对更强大的AI系统时将难以扩展,因为随着AI能力的提升,人类评估的局限性将成为瓶颈。因此,迫切需要找到一种更为有效的对齐方法,尤其是在系统能力超出人类评估能力时。

可解释性也是一个非常重要的方向,尤其是当我们谈论到模型行为驱动因素时。仅凭观察模型的外部表现和输出结果,我们难以深入把握其内部运作机制。而当我们担心模型可能会存在欺骗行为时,我们需要能够详细检查模型内部的“环路”或结构。近年来,机制可解释性(mechanistic interpretability)的研究取得了一些进展,但这仍然是一个需要大量资金和研究人员投入的领域。

AI的系统性安全是另一个非常重要的研究方向。我们通常关注的是上游模型的能力,但这只是问题的一部分,真正的风险往往来源于AI系统在高风险应用中的部署。将AI系统应用于国家基础设施、医疗或法律领域,其影响可能波及整个社会。因此,AI的系统性安全研究旨在探索在高影响应用场景中进行风险缓解的干预措施,这是目前许多研究忽视的领域。

最后,我特别感兴趣的一个方向是防御性AI的研究。随着AI系统的广泛应用,如何预防潜在风险是非常重要的。例如面对AI驱动的网络攻击,我们需要未雨绸缪,利用最先进的AI技术加强网络防御能力。此外,自主性AI(agentic AI)代表用户执行任务的能力也带来了许多挑战。虽然这种应用非常有用,但我们需要确保人类能够有效监督,并能够在自主体的行为偏离正轨时进行干预。

因此,我认为AI安全的未来不仅仅是对技术本身的关注,还要从系统层面提升社会的防御能力,确保我们的系统不至于因AI的潜在不稳定性而遭受大规模的损害。

全球AI安全治理的包容性

谢旻希:AI带来的一些负面影响将是全球外部性——成本可能由社会承担,而不是直接由AI公司承担,类似于环境污染或金融危机。与此同时,120 个国家(主要来自全球南方)被排除在国际AI治理倡议之外。我们可以采取哪些方法来确保更稳健、更包容地管理全球AI风险?

薛澜:我们一直在讨论如何为各国提供更具包容性的AI治理平台,尽管某些国家可能没有足够的能力来开发最先进的AI模型,但他们都应该在全球治理体系中拥有发言权。我认为目前联合国等已经有一些框架,但如何建立一个能够有效的工作机制,仍然一个亟待解决的难题。

目前我们确实已经看到一些AI被滥用和带来的恶劣后果,但我认为这还只是冰山一角。与其他技术相比,AI技术具有显著的不对称性——即通过极小的投入就可以产生极大的危害。这是由于技术的性质和全球连接的现状,小团体甚至个人都有可能能对全球社会造成巨大影响。还有一个方面是无意的危害,这通常是由开发者或使用者的不当应用所引发的。如何应对这些风险也需要我们深入思考。因此,我们必须考虑如何建立应对这些问题的防控机制和全球规则。

我们已经看到气候变化方面有很多讨论,建立相关基金来帮助发展中国家应对气候挑战。在AI领域,我们有机会提前采取行动,因此我认为我们需要在这方面做更多的思考。

展望2025年的具体目标

谢旻希:展望12个月后,全球AI安全领域能取得一项具体的进展或成果,您希望那会是什么?

薛澜:我希望到2025年能见证一个全球性的合作平台的建立,让全球科学界共同参与这个项目,这是我们应该做的事情。可能大家都知道,ITER是一个国际合作的大型项目,许多国家都参与了资金的支持,尽管它现在还在进行中。

林国恩(LAM Kwok Yan):我希望能够在之前的工作基础上,特别是在国际网络方面做出更多的成果。我期待能把这些成果转化为更严谨的知识体系,形成更系统化和规范化的框架。2024年我们已经开展了几轮讨论,确定了AI安全中的关键问题,并开始制定初步的测试方法。我希望明年我们能将这些想法转化为一个更系统化的科学框架,并能与全世界共享。

梁晖(Jade LEUNG):对于一些AI安全风险特别突出的领域,尤其是在需要国际合作的领域,建立更系统化的评估方法是非常有用的,特别是设定阈值和红线。我特别关注首尔峰会上讨论的几大关键问题,包括化学和生物风险、网络滥用风险以及AI失控风险等。如果我们能够促成更多国家就评估内容和标准达成共识,建立起系统化的衡量体系,我认为我们将能走得很远。

唐杰可能在明年我们能够有一个全球安全的定义,这是一个具体的目标。


关 于 我 们



清华大学人工智能国际治理研究院(Institute for AI International Governance, Tsinghua University,THU I-AIIG)是2020年4月由清华大学成立的校级科研机构。依托清华大学在人工智能与国际治理方面的已有积累和跨学科优势,研究院面向人工智能国际治理重大理论问题及政策需求开展研究,致力于提升清华在该领域的全球学术影响力和政策引领作用,为中国积极参与人工智能国际治理提供智力支撑。



新浪微博:@清华大学人工智能国际治理研究院

微信视频号:THU-AIIG

Bilibili:清华大学AIIG


来源 | 本文转载自“安远AI”,点击“阅读原文”获取更多内容

清华大学人工智能国际治理研究院
依托清华大学在人工智能与国际治理方面的已有积累和跨学科优势,面向人工智能国际治理重大理论问题及政策需求开展研究。
 最新文章