CDAO赞助军事医学领域众包AI保障试点项目CAIRT

文摘 2025-01-05 10:29 美国

首席数字与人工智能办公室(CDAO)在军事医学领域成功完成了一个以众包AI红队测试(Crowdsourced AI Red-Teaming，CAIRT)保障计划为重点的试点项目。该试点项目关注大型语言模型(LLM)聊天机器人的使用。CAIRT计划支持美国国防部(DoD)通过基层和众包的方式推进AI保障和AI风险缓解工作。借助众包，这些项目能够收集大量数据并吸引多样化的利益相关方参与。

此次CAIRT LLM试点由技术公司Humane Intelligence主导，与国防健康局(DHA)及国防健康管理系统计划执行办公室(PEO DHMS)合作完成。Humane Intelligence通过红队测试方法(利用对抗性技术对系统稳健性进行内部测试)有效地检测出系统的特定漏洞。此外，红队测试吸引了希望与新技术互动的参与者，这些人也可能成为未来的受益者，从而有机会为系统改进贡献力量。在此之前，2024年春季，CDAO曾通过一个带有财务奖励的红队CAIRT演练，获得了显著成果。

在最新的试点项目中，Humane Intelligence采用众包红队测试的方法，针对军事医学领域的两个潜在使用场景进行了评估：临床记录摘要和医疗咨询聊天机器人。来自DHA、美国军队健康科学大学以及各军种的200多名参与者，包括临床医生和医疗分析师，参与了此次测试。这次测试比较了三种流行的LLM，揭示了800多个与这些潜在使用场景相关的漏洞和偏见。这些测试将通过基准数据集的开发产生可重复且可扩展的成果，用于评估未来的供应商和工具是否符合性能期望。此外，这些发现将在制定国防部关于生成式人工智能(GenAI)负责任使用的政策和最佳实践中发挥关键作用，从而最终改善军事医疗服务。如果这些潜在使用场景在实际应用中符合OMB M-24-10中定义的AI覆盖范围，它们将遵循所有必需的风险管理实践。

“由于在国防部内应用GenAI以这些目的为目标的试验还处于早期阶段，该计划是生成大量测试数据、暴露需要考虑的领域并验证缓解选项的重要路径，这将塑造未来可部署GenAI系统的研究、开发和保障，”该项目负责人Matthew Johnson博士说道。

正如最近的试点和其他测试所揭示的那样，通过CAIRT保障计划对LLM和AI系统的持续测试，对于加速CDAO的AI快速能力单元、提高GenAI的任务效能并为国防部的各类应用场景提供有依据的信心至关重要。

https://www.defense.gov/News/Releases/Release/Article/4020407/cdao-sponsors-crowdsourced-ai-assurance-pilot-in-the-context-of-military-medici/

发消息“24147”，获取2024国防工业协会系统与任务工程会议资料集

发消息“24088”，获取2024年12月重要报告和参考资料

发消息“25001”，获取2025年1月重要报告和参考资料

发消息“C01”，获取美空军相关资料

AerospaceDefense

关注国外航空航天和防务系统架构、软件和通信方面动态、搭建学习交流平台、提供开源情报分析服务

最新文章

[CCA]Kendall：CCA增量2应强于增量1

[HADES]陆军重启高精度探测与利用系统HADES侦察机

[CSIS]非常规战争的未来

DIU推进太空机动多轨道物流飞行器(m-OLV)原型开发

Kratos获得14.5亿美元合同用于开发新型高超音速试验台

[Hudson]CDAO：软件和作战创新

Airbus H160M初具规模，计划于2025年首飞

Leonardo推出Proteus无人旋翼机

[TWZ长文]红海考验美国海军舰上作战信息中心CIC

[NDIA ETI]技术101：对抗性后勤

[Mitchell]空天优势播客第217期：一切都与弹药有关

美国空军E-11A配备BACN系统参加反无人机和综合导弹防御演习

DARPA量子传感项目RoQS

[NAVY STP]自动化托盘载具

美国空军测试JetZero翼身融合等比例缩小验证机

CDAO赞助军事医学领域众包AI保障试点项目CAIRT

[NAVY STP]脉冲高能激光系统

[TWZ长文]乌克兰苏-27飞行员讲述俄乌战争的空战变化

以色列建立中心加速军事AI和自主能力研究

[CNAS]大国竞争时代的非常规战争

《空军与太空部队》杂志2025前瞻

USSF S4S建立一周年回顾

美国海军陆战队太平洋部队2024回顾

美空军调整网络空间能力中心为业务局

Aviation Week：Check 6播客年度精选：NGAD怎么了？

[纽时长文回顾]肯德尔的遗产

Breaking Defense 2024盘点和2025展望：DoD推动下一代IT和网络

AviationWeek：2025-2034未来十军机竞赛前瞻

Breaking Defense 2024盘点和2025展望：太空部队强调反太空能力

[Mitchell]空天优势播客第216期：米切尔团队的难忘经历

Breaking Defense 2024盘点和2025展望：NGAD

Breaking Defense 2024盘点和2025展望：陆军

Breaking Defense 2024盘点和2025展望：海军

DoD将实战演习零信任、以数据为中心的安全能力

Breaking Defense 2024盘点和2025展望：AI和CJADC2

Aviation Week：2024年回顾—商用航空

空军与行业合作伙伴共同制定标准化的数据格式

Breaking Defense 2024盘点和2025展望：太空

Aviation Week：2024年回顾—先进空中交通(AAM)

Breaking Defense 2024盘点和2025展望：空军

Aviation Week：2024年回顾—公务机和通用航空

太空作战司令部先进跟踪和发射分析系统ATLAS

Aviation Week：2024年回顾—旋翼机

AFRL 2024 Highlights

BAE Systems澳大利亚首飞测试STRIX VTOL无人机

Aviation Week：2024年回顾—太空部分

Air Force Year in Review

Aviation Week：2024年回顾—军机部分

美陆军延长Palantir的陆军数据平台ADP合同

BAE PHASA-35高空伪卫星飞行试验

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉