前沿模型评估科学日：人工智能在国家安全与公共安全中的应用与风险评估

民生 2024-10-23 00:00 美国

点击蓝字，关注我们

占知智库，成为您的战略知援部队

占知微店

微信公众号

占知文库

2024年，RAND举办了“前沿模型评估科学日”活动。会议汇集了全球范围内的AI专家、政策制定者以及安全领域的专业人士，共同探讨AI技术的潜在风险及其评估方法。此次会议重点关注了如何有效评估AI在国家安全和公共安全领域的威胁，并提出了多项政策建议，旨在应对这一复杂技术带来的挑战。

会议核心议题

本次会议分为四大核心议题，针对AI技术的不同应用领域，分别探讨了如何从技术、政策和协作层面全面评估并应对可能的风险。

化学与生物领域的AI风险评估

讨论中，专家们深入探讨了AI与化学、生物领域交汇所带来的潜在风险，特别是AI可能被恶意使用于设计或改造致命病原体的危险：

理解AI增强的化学和生物威胁的复杂性，包括识别威胁行为者以及他们可能利用的新能力。
评估者难以准确模拟恶意行为者的思维和行动，这可能导致低估某些行动的成功可能性，从而忽略恶意行为者可能尝试和实现的全部范围。
开发针对双重用途威胁的应对措施，这些威胁难以区分，因为化学和生物知识既可能有益又可能被滥用，例如设计或重构比自然界中更严重和致命的病原体。
需要对特定领域的模型（如生物设计工具）和通用基础模型进行细致评估，因为这些模型存在独特的风险。
在湿实验室验证模型输出的过程中，存在法律和伦理问题，例如如何确保验证过程不会被误解为制造有害物质的步骤。
需要制定标准以进行湿实验室评估，以解决验证过程中出现的误解和敏感评估结果的传播问题。

AI失控风险评估

AI自主行为超出开发者或用户预期的情况正日益引起关注。本次会议特别探讨了AI自主执行潜在危险任务的风险，为了应对这些风险，会议提出了以下行动建议：

改进评估技术，以检测AI系统中的欺骗行为。
实施定期的评估和缓解措施，以适应AI系统能力的快速发展。
建立一个风险不可知的评价方法框架，以确保评价方法在各种风险场景中都适用。

评估方法的无风险适应性框架

评估方法的无风险适应性框架旨在为评估AI模型提供一个通用的方法论框架，该框架不依赖于特定的威胁模型。这个框架的目的是为了确保评价方法在各种风险场景中都适用，并且能够一致地评估AI系统的潜在危险能力。

Table A.1展示了这种风险不可知方法论框架的作者解释，其中列出了各种评价方法（如红队测试、自动化基准测试）并根据关键属性（如可重复性、广度、速度、深度、通用性、成本）进行了分类。这些方法被分为单个输出和系列输出两种类型，并根据它们在不同属性上的表现进行了定性评估，使用符号（✓、~、X）来表示方法的相对优势和局限性。

这个框架的目的是为了促进对不同评价方法的优缺点有更深入的理解，并为建立证据以证明模型能力提供帮助。通过这种方法，可以更全面地探索评价方法的空间，以理解潜在的危害，并为建立一个健壮的评价框架奠定基础。

国际协作与政策协调

国际协作与政策协调的提出旨在连接政府、行业和民间社会的利益相关者，以形成对评价科学目标的共同理解。这一部分讨论了关键即将到来的政策时间表、确定危险AI能力的阈值以及自愿的风险管理政策，以负责任地管理AI能力的扩展。

在会议中，利益相关者讨论了2024年几个关键的AI政策里程碑的范围和状态，包括2023年秋季行政命令分配的交付成果。参与者广泛讨论了如何确定风险阈值，即一旦超过这些阈值，就需要采取重大反应。这些阈值虽然仍在开发中，但可能会支持标准的创建和最佳实践的制定。

此外，会议还讨论了负责任的能力扩展（RCS），这是一个由领先的AI实验室利用的框架，用于管理与开发AI相关的风险。RCS涉及风险评估、预设的风险阈值以及在这些阈值上的缓解承诺，包括如果必要的话暂停开发或部署。

会议提出了几项行动建议，包括：

实施定期的和及时的评价和缓解措施，以适应AI系统能力的快速发展。
建立一个风险不可知的评价方法框架，以确保评价方法在各种风险场景中都适用。
通过组织聚焦的工作坊、维持持续对话和考虑私营部门的见解和创新，来促进共识的达成。

这些建议旨在为开发健壮的政策相关评价科学、填补研究空白和丰富公众对AI和国家安全领域理解提供信息。通过促进开放对话、严格评价和主动的政策制定，可以开始导航AI的复杂双重使用性质。

专题汇编

数据建设

联系我们

资料搜集 译文翻译 报告定制

资料整编加工、公众号代运营

软件定制开发、专题数据库制作

微信：zhanzhiceo

电话：010-84645772

网站：www.milthink.com

http://mp.weixin.qq.com/s?__biz=MzI5Njk5NTQ0OQ==&mid=2247500184&idx=1&sn=cc1a1a9365f04c0be1e4d51c80f98498

占知智库

占知智库汇聚长期从事军事、战略前沿研究的专家与研究人员；依托军地资源，提供国内外热门专业领域的知识服务；让我们成为您的“战支部队”，让您的战略执行“高瞻远瞩”。

最新文章

《为美国海岸警卫队的未来做好准备》

DHS：美国关键基础设施中人工智能的角色和职责框架

美国 NIST 准备后量子密码学路线图

俄罗斯航天发展趋势

美国联邦航空管理局发布 AI 和数据分析服务RFI

美国国防部批准 5G 专网部署战略

CSIS：美国希望欧洲拥有战略自主权

DLA：美国国防后勤信息服务供应支持

在全球技术竞赛中保持美国领先：经济路线图

RAND对金融服务行业中人工智能使用情况的信息请求回应

美国国防部：技术转型跟踪小组（TTAG）

MITRE：创新频谱管理，促进国家安全和经济繁荣

美国航空航天局将量子通信和太阳风实验送往国际空间站

美国联邦零信任数据安全指南

2024美国国家情报战略

美国海岸警卫队 2024 年行动态势

“灰鹰"（Gray Eagle）信号传感器RFI

美国国防部发布《国防工业战略实施计划》

人工智能：生成式 AI 训练、开发和部署注意事项

《2025-2026 财年 CISA 国际战略计划》

MRIC 进行快速反应评估

BIS 更新太空相关产品出口管理条例

《美国2025年太空议程》

美国发布《核武器挑战》报告

国防部战术飞机运行和维护新报告

太空系统司令部（SSC）指挥计划

CISA 更新软件供应链透明度指南

《美国信息安全现代化法案2023年报告》

前沿模型评估科学日：人工智能在国家安全与公共安全中的应用与风险评估

PWND²（Provably Weird Network Deployment and Detection）计划

美国国家核安全管理局（NNSA）：2024企业蓝图

SVR 网络运营和漏洞利用更新

美国空军研究实验室（AFRL）：多轨道卫星通信硬件飞行测试

国防部发布新太空政策

《太空发展：美国太空军的基础机遇和挑战》

大规模杀伤武器研究中心三十周年

GAO：哥伦比亚级核潜艇项目的进展情况

美国能源部授予 8 个清洁能源网络安全计划项目

美国专利商标局（USPTO）发布后量子加密弹性 RFI

白宫发布国家频谱研发计划

NASA：供应商沟通计划

DODI 4245.14 国防部价值工程（VE）计划

人工智能风险的国际科学评估：构建全球安全与合作的未来框架

《地理作战司令部组织信息战》

NAVAIR：可部署高性能计算机

美国空军系统开发与维护工程新手册

美国国土安全部监察长办公室（OIG）发布关于科学与技术局（S&T）管理情况最终报告

美国国土安全运营分析中心 2022-2023 年度报告

五角大楼发布关于建模和模拟验证、确认和认证最新指示

RAND：扩大美国陆军（JROTC）的地理足迹：教官与学校视角、地点可持续性和教官队伍分析

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉