首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
CDAO赞助军事医学领域众包AI保障试点项目CAIRT
文摘
2025-01-05 10:29
美国
首席数字与人工智能办公室(CDAO)在军事医学领域成功完成了一个以众包AI红队测试(Crowdsourced AI Red-Teaming,CAIRT)保障计划为重点的试点项目。该试点项目关注大型语言模型(LLM)聊天机器人的使用。CAIRT计划支持美国国防部(DoD)通过基层和众包的方式推进AI保障和AI风险缓解工作。借助众包,这些项目能够收集大量数据并吸引多样化的利益相关方参与。
此次CAIRT LLM试点由技术公司Humane Intelligence主导,与国防健康局(DHA)及国防健康管理系统计划执行办公室(PEO DHMS)合作完成。Humane Intelligence通过红队测试方法(利用对抗性技术对系统稳健性进行内部测试)有效地检测出系统的特定漏洞。此外,红队测试吸引了希望与新技术互动的参与者,这些人也可能成为未来的受益者,从而有机会为系统改进贡献力量。在此之前,2024年春季,CDAO曾通过一个带有财务奖励的红队CAIRT演练,获得了显著成果。
在最新的试点项目中,Humane Intelligence采用众包红队测试的方法,针对军事医学领域的两个潜在使用场景进行了评估:临床记录摘要和医疗咨询聊天机器人。来自DHA、美国军队健康科学大学以及各军种的200多名参与者,包括临床医生和医疗分析师,参与了此次测试。这次测试比较了三种流行的LLM,揭示了800多个与这些潜在使用场景相关的漏洞和偏见。这些测试将通过基准数据集的开发产生可重复且可扩展的成果,用于评估未来的供应商和工具是否符合性能期望。此外,这些发现将在制定国防部关于生成式人工智能(GenAI)负责任使用的政策和最佳实践中发挥关键作用,从而最终改善军事医疗服务。如果这些潜在使用场景在实际应用中符合OMB M-24-10中定义的AI覆盖范围,它们将遵循所有必需的风险管理实践。
“由于在国防部内应用GenAI以这些目的为目标的试验还处于早期阶段,该计划是生成大量测试数据、暴露需要考虑的领域并验证缓解选项的重要路径,这将塑造未来可部署GenAI系统的研究、开发和保障,”该项目负责人Matthew Johnson博士说道。
正如最近的试点和其他测试所揭示的那样,通过CAIRT保障计划对LLM和AI系统的持续测试,对于加速CDAO的AI快速能力单元、提高GenAI的任务效能并为国防部的各类应用场景提供有依据的信心至关重要。
https://www.defense.gov/News/Releases/Release/Article/4020407/cdao-sponsors-crowdsourced-ai-assurance-pilot-in-the-context-of-military-medici/
发消息“24147”,获取2024国防工业协会系统与任务工程会议资料集
发消息“24088”,获取2024年12月重要报告和参考资料
发消息“25001”,获取2025年1月重要报告和参考资料
发消息“C01”,获取美空军相关资料
AerospaceDefense
关注国外航空航天和防务系统架构、软件和通信方面动态、搭建学习交流平台、提供开源情报分析服务
最新文章
[CCA]Kendall:CCA增量2应强于增量1
[HADES]陆军重启高精度探测与利用系统HADES侦察机
[CSIS]非常规战争的未来
DIU推进太空机动多轨道物流飞行器(m-OLV)原型开发
Kratos获得14.5亿美元合同用于开发新型高超音速试验台
[Hudson]CDAO:软件和作战创新
Airbus H160M初具规模,计划于2025年首飞
Leonardo推出Proteus无人旋翼机
[TWZ长文]红海考验美国海军舰上作战信息中心CIC
[NDIA ETI]技术101:对抗性后勤
[Mitchell]空天优势播客第217期:一切都与弹药有关
美国空军E-11A配备BACN系统参加反无人机和综合导弹防御演习
DARPA量子传感项目RoQS
[NAVY STP]自动化托盘载具
美国空军测试JetZero翼身融合等比例缩小验证机
CDAO赞助军事医学领域众包AI保障试点项目CAIRT
[NAVY STP]脉冲高能激光系统
[TWZ长文]乌克兰苏-27飞行员讲述俄乌战争的空战变化
以色列建立中心加速军事AI和自主能力研究
[CNAS]大国竞争时代的非常规战争
《空军与太空部队》杂志2025前瞻
USSF S4S建立一周年回顾
美国海军陆战队太平洋部队2024回顾
美空军调整网络空间能力中心为业务局
Aviation Week:Check 6播客年度精选:NGAD怎么了?
[纽时长文回顾]肯德尔的遗产
Breaking Defense 2024盘点和2025展望:DoD推动下一代IT和网络
AviationWeek:2025-2034未来十军机竞赛前瞻
Breaking Defense 2024盘点和2025展望:太空部队强调反太空能力
[Mitchell]空天优势播客第216期:米切尔团队的难忘经历
Breaking Defense 2024盘点和2025展望:NGAD
Breaking Defense 2024盘点和2025展望:陆军
Breaking Defense 2024盘点和2025展望:海军
DoD将实战演习零信任、以数据为中心的安全能力
Breaking Defense 2024盘点和2025展望:AI和CJADC2
Aviation Week:2024年回顾—商用航空
空军与行业合作伙伴共同制定标准化的数据格式
Breaking Defense 2024盘点和2025展望:太空
Aviation Week:2024年回顾—先进空中交通(AAM)
Breaking Defense 2024盘点和2025展望:空军
Aviation Week:2024年回顾—公务机和通用航空
太空作战司令部先进跟踪和发射分析系统ATLAS
Aviation Week:2024年回顾—旋翼机
AFRL 2024 Highlights
BAE Systems澳大利亚首飞测试STRIX VTOL无人机
Aviation Week:2024年回顾—太空部分
Air Force Year in Review
Aviation Week:2024年回顾—军机部分
美陆军延长Palantir的陆军数据平台ADP合同
BAE PHASA-35高空伪卫星飞行试验
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉