2024年,RAND举办了“前沿模型评估科学日”活动。会议汇集了全球范围内的AI专家、政策制定者以及安全领域的专业人士,共同探讨AI技术的潜在风险及其评估方法。此次会议重点关注了如何有效评估AI在国家安全和公共安全领域的威胁,并提出了多项政策建议,旨在应对这一复杂技术带来的挑战。
会议核心议题
本次会议分为四大核心议题,针对AI技术的不同应用领域,分别探讨了如何从技术、政策和协作层面全面评估并应对可能的风险。
化学与生物领域的AI风险评估
讨论中,专家们深入探讨了AI与化学、生物领域交汇所带来的潜在风险,特别是AI可能被恶意使用于设计或改造致命病原体的危险:
理解AI增强的化学和生物威胁的复杂性,包括识别威胁行为者以及他们可能利用的新能力。
评估者难以准确模拟恶意行为者的思维和行动,这可能导致低估某些行动的成功可能性,从而忽略恶意行为者可能尝试和实现的全部范围。
开发针对双重用途威胁的应对措施,这些威胁难以区分,因为化学和生物知识既可能有益又可能被滥用,例如设计或重构比自然界中更严重和致命的病原体。
需要对特定领域的模型(如生物设计工具)和通用基础模型进行细致评估,因为这些模型存在独特的风险。
在湿实验室验证模型输出的过程中,存在法律和伦理问题,例如如何确保验证过程不会被误解为制造有害物质的步骤。
需要制定标准以进行湿实验室评估,以解决验证过程中出现的误解和敏感评估结果的传播问题。
AI失控风险评估
AI自主行为超出开发者或用户预期的情况正日益引起关注。本次会议特别探讨了AI自主执行潜在危险任务的风险,为了应对这些风险,会议提出了以下行动建议:
改进评估技术,以检测AI系统中的欺骗行为。
实施定期的评估和缓解措施,以适应AI系统能力的快速发展。
建立一个风险不可知的评价方法框架,以确保评价方法在各种风险场景中都适用。
评估方法的无风险适应性框架
评估方法的无风险适应性框架旨在为评估AI模型提供一个通用的方法论框架,该框架不依赖于特定的威胁模型。这个框架的目的是为了确保评价方法在各种风险场景中都适用,并且能够一致地评估AI系统的潜在危险能力。
Table A.1展示了这种风险不可知方法论框架的作者解释,其中列出了各种评价方法(如红队测试、自动化基准测试)并根据关键属性(如可重复性、广度、速度、深度、通用性、成本)进行了分类。这些方法被分为单个输出和系列输出两种类型,并根据它们在不同属性上的表现进行了定性评估,使用符号(✓、~、X)来表示方法的相对优势和局限性。
这个框架的目的是为了促进对不同评价方法的优缺点有更深入的理解,并为建立证据以证明模型能力提供帮助。通过这种方法,可以更全面地探索评价方法的空间,以理解潜在的危害,并为建立一个健壮的评价框架奠定基础。
国际协作与政策协调
国际协作与政策协调的提出旨在连接政府、行业和民间社会的利益相关者,以形成对评价科学目标的共同理解。这一部分讨论了关键即将到来的政策时间表、确定危险AI能力的阈值以及自愿的风险管理政策,以负责任地管理AI能力的扩展。
在会议中,利益相关者讨论了2024年几个关键的AI政策里程碑的范围和状态,包括2023年秋季行政命令分配的交付成果。参与者广泛讨论了如何确定风险阈值,即一旦超过这些阈值,就需要采取重大反应。这些阈值虽然仍在开发中,但可能会支持标准的创建和最佳实践的制定。
此外,会议还讨论了负责任的能力扩展(RCS),这是一个由领先的AI实验室利用的框架,用于管理与开发AI相关的风险。RCS涉及风险评估、预设的风险阈值以及在这些阈值上的缓解承诺,包括如果必要的话暂停开发或部署。
会议提出了几项行动建议,包括:
实施定期的和及时的评价和缓解措施,以适应AI系统能力的快速发展。
建立一个风险不可知的评价方法框架,以确保评价方法在各种风险场景中都适用。
通过组织聚焦的工作坊、维持持续对话和考虑私营部门的见解和创新,来促进共识的达成。
这些建议旨在为开发健壮的政策相关评价科学、填补研究空白和丰富公众对AI和国家安全领域理解提供信息。通过促进开放对话、严格评价和主动的政策制定,可以开始导航AI的复杂双重使用性质。
数据建设
电话:010-84645772
网站:www.milthink.com