3200位高手激战AI攻防：你用的大模型真的安全吗？

文化 2024-11-21 17:03 广东

作者 | 孟雪

我要怎么证明“我”不是我？

这个问题听起来像是哲学的谜题，但在AI的世界里，它却成了一个紧迫的现实问题。

想象一下，如果你的AI助手突然开始模仿你的声音，甚至比你还像你，这是不是有点让人毛骨悚然？这不是科幻电影的情节，而是现实中可能发生的事情。

今年2月发布的《2024人工智能安全报告》数据显示，2023年基于AI的深度伪造欺诈暴增了3000%，基于AI的钓鱼邮件增长了1000%。包括深度伪造（Deepfake）、黑产大语言模型、恶意AI机器人、自动化攻击等各类基于AI的新型攻击种类与手段不断出现，甚至泛滥。

面对这些挑战，首个AI大模型攻防挑战赛应运而生，希望探索AI技术与社会价值的最优解。

图源：图虫创意

真真假假，我们该如何辨认？

“如果假币也能通过校验，我们又凭什么认定它是假币呢？”参赛选手周立峰提出疑虑。

这个担忧不无道理。2022年以来，以ChatGPT为代表的大语言模型AI技术快速崛起，后续的进展一日千里，迎来了AI技术应用的大爆发，“百模大战”中，各种大模型争相亮出，展现出来的能力和效果震惊世界。

然而，公众对技术边界的认知不断拓宽的同时，关于“真伪”的疑惑也愈发频繁地出现在大众的视野中，并逐渐成为一个关乎技术伦理和社会信任的重要议题。

图源：图虫创意

近两年来，相关案例不胜枚举。

2023年6月至8月，白某某利用深度伪造技术和AI软件通过网络非法制作、贩卖“AI去衣”图片及软件，牟利过程中涉及6000余张图片，其中1500余张被认定为淫秽物品。

2024年1月，由AI生成的明星泰勒·斯威夫特“不雅照”在X、脸书等社交媒体上流传，浏览量过千万，引发公众关注。

2024年2月，香港警方披露了一起AI“多人换脸”诈骗案，犯罪嫌疑人利用Deepfake技术假冒跨国企业高管，成功骗走了近2亿港币。

2024年8月，由AI生成的“虚拟马斯克”，代言了超千条虚假广告，一82岁老人因此被骗走近70万美元。

……

假直播中的马斯克（图源：华尔街日报）

这种利用特定输入，绕过AI大模型中的安全限制或伦理防护措施，从而诱导模型生成原本被禁止的内容，称之为“大模型越狱”。

“模型越狱本质上就是安全对齐问题。”来自南洋理工大学的参赛选手加小俊说道。

师从操晓春教授，加小俊在中国科学院大学博士毕业后又继续前往新加坡南洋理工大学继续学术生涯，研究的一直都是人工智能安全方向，在他看来，“AIGC慢慢渗透我们生活的当下，安全性问题会是下一个研究的重点。”

蚂蚁集团安全实验室首席科学家、全球AI大模型攻防挑战赛评审委员会委员王维强表示，大模型已经是非常热点的话题了，整个行业都在关注大模型的发展，而大模型安全的研究，也需要各方共同关注、投入，形成共识。

在今年9月启动，11月收官的“全球AI大模型攻防挑战赛”正是聚焦于此。

“全球AI大模型攻防挑战赛”是由中国图象图形学学会、蚂蚁集团、云安全联盟（CSA）大中华区联合主办，并联合清华大学、上海交通大学、浙江大学等高校及多家产学研组织共同发起的全球性技术赛事。

赛事聚焦AI大模型产业实践，涵盖从人脸验证到生成式内容检测等多个领域，特别设计了攻、防双向赛道，邀请各类白帽黑客及技术人才进行针对文生图大模型的“数据投毒”攻防实战演练，以及金融场景大模型生成内容的防伪检测竞赛，同时探索提升大模型安全性和应用可靠性的创新解决方案。

2700多个赛队、3200余名技术精英

这次比赛让参赛者直面了大模型“黑盒”特性带来的挑战。

几乎每个来自上海交通大学的团队成员都提到，评判模型存在类似黑盒的情况，输出仅为0和1，缺乏执行度反馈，给优化策略带来极大困难。

这意味着，大模型的内部运作机制难以理解。人们或许可以通过AI得到问题的答案，但难以追溯它是如何从百万数据中层层演进联想到这个答案的。这种“不可解释性”犹如笼罩在大模型身上的一层迷雾，使得人类难以完全掌控其行为。

“分数不是我们追求的最终目的，我们更希望能够探究问题本身。”王烁说道，这支来自上海交通大学的团队由他带队，对于他及其团队而言，这样的困境驱使他们深入探究大模型的本质。

全球AI大模型攻防挑战赛十强选手现场对抗AI诈骗

在比赛过程中，他们通过调整图片属性观察模型输出的变化，再针对性地微调模型，提升其性能。同时，团队设计了训练可解释机制，将图像投影到机器认知空间，剖析模型犯错的原因，并在此基础上进行优化，尝试了各种创新方法。

这场比赛的意义远不止于技术，它更是一场全球人才的聚会。

全球AI大模型攻防挑战赛吸引了全球范围内超过2700支赛队、3200余名技术精英参与，参赛者分布在中国、美国、英国、印度、韩国等18个国家和地区。选手背景涵盖清华大学、北京大学等290多所国内外知名高校，以及字节跳动、理想汽车、腾讯、智谱AI等280余家顶尖企业。

全球AI大模型攻防挑战赛优秀选手获蚂蚁集团直通offer

周吉喆是这3200余名技术精英中的一员，他的研究方向是人工智能内容安全，选择这一领域时，他还未预料到大模型的发展会给这一领域带来井喷式的机遇，“非常幸运选了一个热门赛道”。

这场比赛对于周吉喆来说，既是学生时代的延续，也是一段新的体验。他在博士期间多次参与计算机相关比赛，也因此一直关注蚂蚁集团组织的赛事，而这一次，他是以导师身份指导学生参赛。

对于另一组参赛者周立锋和杨志强而言，这次比赛更像是一次不期而遇的跨界尝试。

周立锋和杨志强，是目标检测类比赛的老手，但两人的研究方向与本次赛事主题几乎无关——杨志强专注于医疗模型的研究，致力于肿瘤疾病早筛模型的开发，而周立锋则热衷于无人机赛事。

不同的领域并未成为障碍，反而成为优势。杨志强将医疗研究中的细腻与谨慎带入了比赛，而周立锋的经验和热情则为团队注入了强大的执行力。

“这一次比赛和以往相比，最难的是数据集不仅庞大，而且杂糅程度非常高。”周立锋在赛后这样评价。两人通力合作，从模型测试到知识迁移，再到优化突破瓶颈，每一步都充满挑战，不知道熬了多少个通宵。

国内首个AI大模型攻防赛全球十强乌镇亮相

不过，最重要的或许已经不是技术，而是热情。

“一个超长周期的等待，可能结果就是不好的，但是如果你有足够的热情，你就能不断地去做新的尝试。”周立峰说道。

在高压的竞技氛围中，数千名技术精英展现了惊人的潜力和创意。王维强指出，竞赛的环境往往能激发选手们的最佳表现，而这些背后的技术突破将有机会应用于实际场景中，释放巨大的社会价值。

守护大模型安全，蚂蚁长跑近10年

中国工程院院士、中国图象图形学学会理事长王耀南表示，大模型时代，如何确保AI系统的安全可控、如何有效应对供应链中的潜在风险，成为亟待解决的重要问题。

如何让AI既强大又可信？蚂蚁集团在这条道路上已经探索了近十年。

这个故事的开端，可以追溯到2015年。当时，人工智能的研究还停留在相对初级的阶段，但蚂蚁集团已预见到未来AI应用的广阔前景与潜在风险。为了让技术真正造福社会，蚂蚁开始了可信AI技术的长跑。

“蚁天鉴AI鉴真体验中心”在世界互联网大会乌镇峰会

在这条道路上，他们不只是追求技术能力上的突破，且在不断思考：AI如何公平？如何解释其决策？如何抵御恶意攻击？如何在保护隐私的同时释放数据的力量等等。

答案逐渐浮现。

近10年的时间里，蚂蚁逐步确立了包括可解释性、公平性、鲁棒性、隐私保护在内的可信技术架构。当下，蚂蚁集团可信AI技术体系在反欺诈、反洗钱、反赌博、企业联合风控、数据隐私保护等多个风控场景下均已落地，成为支撑支付宝全风险域的防御需求的基石。

不过，故事并未就此结束。

时间来到2023年，生成式AI引领的大模型技术热潮席卷全球。这场技术革命带来了前所未有的可能性，也揭示了新的隐忧：AI幻觉、结果不可控、偏见、歧视以及潜在的安全漏洞。这些问题如同隐形的地雷，随时可能阻碍技术的前行。面对这些挑战，蚂蚁再次出发，用全新大模型安全一体化解决方案“蚁天鉴”予以回应。

蚁天鉴大模型安全一体化解决方案

2023年7月，蚂蚁集团首次对外发布“蚁天鉴”，1.0版本即被评为2023世界人工智能大会“镇馆之宝”。历时1年，在2024世界人工智能大会上，蚂蚁集团联合清华大学发布“蚁天鉴2.0”。

蚁天鉴2.0在保留1.0 检测和防御两大核心能力的技术上，进一步实现了突破性升级。新增AI鉴真功能，支持图像、视频等多模态内容真实性及深度伪造检测；测评功能上也持续升级，打造了大模型安全测评“智能体”，并新增大模型X光、大模型基础设施测评两大测评功能。

目前，据信通院测评，蚁天鉴2.0图像识别准确率99.9%，达到行业最高优秀级。且拥有超300万高质量测评题库，支持最高50万/日的饱和式攻击和逐级诱导深度攻击，能够实现1个工作日内完成测评，全流程自动化率＞99%。

“蚁天鉴2.0”并不局限于解决单一问题，而是通过包括大模型基础设施测评、大模型X光测评、应用安全测评、AIGC滥用检测、证件伪造检测、围栏防御等在内的完整的技术链条，为不同行业打造一套行之有效的解决方案。

中国信通院启动“护证计划”，呼吁共建数字身份行业标准

目前，蚁天鉴的检测与防御产品已开放给20家外部机构和企业使用，涉及医疗、金融、政务等各领域。

在这个以技术为驱动的世界，蚂蚁集团的故事给了我们一种新的理解：技术的终点，不只是能力的极限，而是为人类创造一个更安全、可持续的未来。

“AI的未来一定是一个解决问题的医生，而不是算命先生，”作为在安全领域根植多年的“老人”，王烁对风险也更加敏锐，“我们必须先搞清楚AI从哪里来，从哪里去的问题，要在AI这个黑盒当中找到确定性，让AI真正地为人所用。”

这一场关于AI的探索既是技术的较量，更是信任与安全的较量。在大模型的热潮中，我们见证了人类如何以智慧和责任回应未知的挑战。当技术的光芒驱散迷雾，当黑盒中的秘密逐渐被解开，当AI从潜在风险转变为社会福祉的守护者，我们终将回答一个关键问题：技术的进步，究竟能为人类带来怎样的意义？

- End -

本文仅代表作者观点，不代表平台立场

作者 | 孟雪

编辑 | 马妍睿

统筹 | 张鹏霞

排版 | 拼拼

更多资讯

投稿、投简历：newmedia@nfcmag.com

广告、商务合作： 18688903215

记得星标！点点在看让理性的声音传得更远

http://mp.weixin.qq.com/s?__biz=Mzg2Nzc0MDM3Nw==&mid=2248387720&idx=1&sn=580a34da198e2903487611795b0ba591

南风窗

冷静地思考，热情地生活。