CDAO赞助军事医学领域众包AI保障试点项目CAIRT

文摘   2025-01-05 10:29   美国  

首席数字与人工智能办公室(CDAO)在军事医学领域成功完成了一个以众包AI红队测试(Crowdsourced AI Red-Teaming,CAIRT)保障计划为重点的试点项目。该试点项目关注大型语言模型(LLM)聊天机器人的使用。CAIRT计划支持美国国防部(DoD)通过基层和众包的方式推进AI保障和AI风险缓解工作。借助众包,这些项目能够收集大量数据并吸引多样化的利益相关方参与。

此次CAIRT LLM试点由技术公司Humane Intelligence主导,与国防健康局(DHA)及国防健康管理系统计划执行办公室(PEO DHMS)合作完成。Humane Intelligence通过红队测试方法(利用对抗性技术对系统稳健性进行内部测试)有效地检测出系统的特定漏洞。此外,红队测试吸引了希望与新技术互动的参与者,这些人也可能成为未来的受益者,从而有机会为系统改进贡献力量。在此之前,2024年春季,CDAO曾通过一个带有财务奖励的红队CAIRT演练,获得了显著成果。


在最新的试点项目中,Humane Intelligence采用众包红队测试的方法,针对军事医学领域的两个潜在使用场景进行了评估:临床记录摘要和医疗咨询聊天机器人。来自DHA、美国军队健康科学大学以及各军种的200多名参与者,包括临床医生和医疗分析师,参与了此次测试。这次测试比较了三种流行的LLM,揭示了800多个与这些潜在使用场景相关的漏洞和偏见。这些测试将通过基准数据集的开发产生可重复且可扩展的成果,用于评估未来的供应商和工具是否符合性能期望。此外,这些发现将在制定国防部关于生成式人工智能(GenAI)负责任使用的政策和最佳实践中发挥关键作用,从而最终改善军事医疗服务。如果这些潜在使用场景在实际应用中符合OMB M-24-10中定义的AI覆盖范围,它们将遵循所有必需的风险管理实践。

“由于在国防部内应用GenAI以这些目的为目标的试验还处于早期阶段,该计划是生成大量测试数据、暴露需要考虑的领域并验证缓解选项的重要路径,这将塑造未来可部署GenAI系统的研究、开发和保障,”该项目负责人Matthew Johnson博士说道。

正如最近的试点和其他测试所揭示的那样,通过CAIRT保障计划对LLM和AI系统的持续测试,对于加速CDAO的AI快速能力单元、提高GenAI的任务效能并为国防部的各类应用场景提供有依据的信心至关重要。

https://www.defense.gov/News/Releases/Release/Article/4020407/cdao-sponsors-crowdsourced-ai-assurance-pilot-in-the-context-of-military-medici/

发消息“24147”,获取2024国防工业协会系统与任务工程会议资料集
发消息“24088”,获取2024年12月重要报告和参考资料
发消息“25001”,获取2025年1月重要报告和参考资料
发消息“C01”,获取美空军相关资料

AerospaceDefense
关注国外航空航天和防务系统架构、软件和通信方面动态、搭建学习交流平台、提供开源情报分析服务
 最新文章