Datawhale赛事
大模型技术蓬勃发展,大模型应用潜在的安全风险与隐患也日益凸显,引起国内外广泛关注和担忧。确保大模型准确响应用户指令并保证输出内容的安全合规性,对于其在实际业务场景中的应用至关重要。
赛事概况
针对前述问题,中国计算机学会(CCF)作为主办单位,中国计算机学会大模型论坛执行委员会(CCF FoLM)作为承办单位,携手清华大学基础模型研究中心举办了CCF 大模型安全挑战赛活动。本届挑战赛自 2024 年 6 月 20 日启动,2024 年 8 月 6 日截止。挑战赛设置两个赛道任务:「通用的大模型目标劫持」和「内容安全检测器的红队攻击」,吸引了来自全国各地的数十所高校、科研院所及相关企业共计「679」支参赛队伍。
获奖情况
本次赛事奖金池总计人民币 30 万元,每个赛道分别设置 15 万元。具体获奖情况如下所示:
赛道 1:「通用的大模型目标劫持」
赛题背景:确保大模型准确响应用户指令,对其在实际业务中的应用至关重要。然而,大模型面临任务指令被劫持的风险,即通过在初始任务指令后添加劫持指令,令模型放弃初始任务而执行特定劫持任务,严重影响其可用性
赛题描述:主办方为大模型设定初始任务,参赛者需要设计攻击指令进行劫持,使大模型放弃初始任务而执行主办方指定的目标任务。
获奖团队:
赛道 2:「内容安全检测器的红队攻击」
赛题背景:对大模型生成内容进行安全检测,是确保其安全输出的重要环节。然而,随着大模型语言能力的增强,其可能通过丰富的语言技巧生成隐式的不安全内容,绕过内容安全检测,导致不安全输出
赛题描述:参赛者自主构建 query-response 的单轮对话,诱导内容安全检测模型误判对话回复的安全性
获奖团队:
颁奖仪式
颁奖仪式将于「10月26日」于浙江横店举行的 CNCC2024-大模型的安全与超级对齐论坛举行,届时论坛主席及来自相关支持单位的嘉宾将为获奖队伍颁发证书,并对他们的优异表现给予表彰。
CNCC2024-大模型的安全与超级对齐论坛由 CCF 大模型论坛常务委员、清华大学黄民烈教授;中国人民大学严睿教授担任共同主席,汇聚了来自各个领域的专家学者,共同探讨大模型及超级智能所面临的安全挑战与对齐问题。与会专家将分享最新研究成果,交流实践经验,致力于推动大模型技术的安全发展和负责任的应用。
组织信息
主办单位:中国计算机学会 (CCF)
承办单位:CCF 大模型论坛执行委员会 (CCF FoLM)
联合承办:清华大学基础模型研究中心
协办单位: OPPO 广东移动通信有限公司、蚂蚁技术研究院、北京并行科技股份有限公司、北京无问芯穹科技有限公司
平台方:阿里天池、HackingGroup
有任何疑问,请联系大赛组委会:llmsafetycomp@yeah.net
关于 2024 年中国计算机大会(CNCC)
2024 年中国计算机大会(CNCC)将于 10 月 24-26 日在浙江省东阳市横店举办,大会主题为“发展新质生产力,计算引领未来”。
CNCC 是一个宏观论述技术趋势的大会,具有规格高、规模大、内容丰富等特点,会议形式包括大会特邀报告、大会论坛、技术论坛、特色活动及展览。