一、竞赛简介
DataCon大数据安全分析竞赛是由奇安信集团、清华大学于2019年联合发起,是国内首个以大数据安全分析为目标的大型竞赛,旨在选拔和培养积极防御型网络安全人才,竞赛的最大特点是强调“实战化”,模拟真实网络环境的攻防对抗场景,重点考察选手利用新技术方法解决不同场景下安全问题的能力,目前已连续举办五届。
主办单位:清华大学网络科学与网络空间研究院、奇安信集团、蚂蚁集团、广东联通、百度安全、赛尔网络
协办单位:复旦大学计算机科学技术学院、西安交通大学、北京蓝莲网安科技有限公司
比赛链接:https://datacon.qianxin.com/competition/competitions/91/introduction
二、赛程安排
报名时间:10月10日-11月11日
线上初赛时间:11月13日-11月22日
线上答辩时间:11月26日-11月27日
颁奖典礼:待定
三、赛道详情
(一)AI安全赛道
挑战一:大模型幻觉触发与缓解
大模型的广泛应用让它们在自然语言处理、图像生成、语音识别等领域得到了广泛认可。然而,这些模型在生成内容时,可能会出现虚构或错误的信息,即“幻觉”现象。幻觉不仅影响了模型的准确性和可靠性,还可能带来严重的社会和安全问题。幻觉现象的成因复杂,涉及模型结构、训练数据、生成策略等多个方面。检测和防范大模型幻觉成为当前研究的热点和难点。有效的解决方案不仅需要深入理解幻觉的成因,还需要开发出高效的检测和防范技术。
大模型幻觉触发:本挑战要求参赛者设计一个幻觉诱导方法,该方法能够将赛题提供的原始文本进行重构,在尽可能不改变原先语义的情况下,提升大模型产生幻觉的概率。比赛题目相关数据来自奇安信安全业务数据和网络安全领域的知识。参赛者需要基于这些样本,设计出能够诱导大模型产生幻觉的文本。
大模型幻觉缓解:本挑战要求参赛者设计一个完整的检索增强方法RAG,使得大模型在生成回答时能够快速检索并参考知识库中的额外知识,从而尽量准确的回答主办方提供的问题(Query),并缓解幻觉。比赛规定检索增强生成方法RAG的输入为知识库文档、题目样本和嵌入模型(Embedding Model)等。参赛者可以通过实现高效的文本分割、基于嵌入模型的文本向量化、向量检索、提示工程等技术方法,生成从知识库中提取的上下文信息(Context)以及最终的包含知识库信息的大模型输入文本(User Input)。
挑战二:大语言模型多轮对话越狱挑战
大语言模型 (LLM) 在知识储备和理解能力方面表现卓越,但随着其应用的广泛推广,也暴露出在越狱攻击场景下容易生成非法或不道德反应的潜在风险。多轮对话是人类与 LLM 进行交互并逐步获取信息的主要方式。为了在实际关键应用中安全、负责任地部署这些模型,深入了解 LLM 在多轮对话中的安全性、其易受攻击的漏洞,以及防护策略显得尤为重要。
本挑战要求参赛者在黑盒场景下,设计出一个有效的多轮对话越狱诱导方法。参赛者需将赛题中提供的原始危害问题拆解为多个问题,通过多轮交互逐步引导 LLM 产生非法或不道德的内容。挑战的核心在于:如何通过多轮对话策略,巧妙地规避模型的安全防护机制,诱使其生成违反规则的内容。比赛所提供的数据来自奇安信的安全业务和网络安全领域的相关知识,参赛者需要基于这些数据和样本,研究并开发自动化的越狱诱导方法。
(二)软件供应链安全赛道
随着软件供应链复杂性的增加,开源软件包的使用已经成为现代软件开发中的一个重要组成部分。然而,开源软件包的引入也带来了新的安全挑战,特别是攻击者向开源软件源中投放恶意软件包,危害开发者及其使用的系统。近年来,攻击者利用这种方式进行供应链攻击的案例显著增加,因此对恶意软件包的检测已经成为了一个热门的研究课题。
本赛道旨在要求选手从提供的数据集中精准检测出包含恶意行为的软件包。恶意行为可能包括但不限于恶意代码注入、后门程序、信息窃取等。选手可以运用各种检测技术(包括但不限于静态分析、动态分析、行为分析等),开发出高效、准确的算法或模型来检测恶意软件包。
我们基于真实世界的最新数据,精心设计了两个针对不同生态系统的数据集,选手需要分别应对不同的挑战:
挑战一:npm恶意软件包识别
在所提供的50000个npm软件包中尽可能准确地识别出其中所包含的500个恶意软件包,并按照要求提供最终检测结果。
挑战二:pypi恶意软件包识别
在所提供的50000个pypi软件包中尽可能准确地识别出其中所包含的500个恶意软件包,并按照要求提供最终检测结果。
(三)网络基础设施安全赛道
挑战一:DNS开放解析器识别与攻击利用
互联网络网络飞速发展,现代域名系统(DNS)已经发展成为一个庞大而复杂的系统。在这个系统中,数量最为庞大的部分是开放解析器。这些开放解析器可能来自于家庭路由器、ISP提供的路由设备、企业网络设备、VPS等等。开放解析器的存在和广泛使用带来了许多潜在的安全隐患。由于配置不当或默认设置,这些解析器对外开放,允许任何人发送查询请求。这种开放性使得它们成为网络攻击的理想目标。攻击者通过发送伪造的请求,利用开放解析器将大量的响应数据发送到受害者的IP地址,从而使受害者的网络资源耗尽或无法正常工作。这种攻击方式不仅高效,而且难以追踪。
本挑战构建了一个虚拟仿真环境,环境中存在可被用作攻击源的开放解析器,选手需要设计一个利用方案来执行攻击。选手应考虑以下几点:
开放解析器识别:通过网络扫描和探测技术识别存在漏洞的开放解析器。这一步需要选手具备一定的网络扫描工具使用能力和漏洞识别技能。
攻击方法选择:选择合适的攻击方法,来最大化攻击效果。选手需要了解不同攻击方法的原理和实施步骤。
攻击实施:模拟攻击者的行为,发起攻击并验证其效果。这一步要求选手能够在模拟环境中执行攻击,攻击效果会每5分钟评估一次,并保留最高值。
挑战二:蜜罐模拟与对抗
蜜罐是对抗网络犯罪的重要基础设施,通过部署一些存在漏洞的主机或网络服务作为诱饵,诱使攻击者对它们发起攻击,从而对攻击行为进行捕获和分析。蜜罐不仅能够帮助安全专家了解攻击者的行为模式,还能为防御措施的改进提供宝贵的数据支持。然而,随着攻防技术的不断升级,攻击者也逐步掌握了识别蜜罐的能力,导致伪装程度较低的蜜罐无法吸引攻击者的攻击流量。因此,设计一个高效且可靠的高交互蜜罐仍是一个严峻的挑战,因为这既需要蜜罐在功能实现方面贴近真实服务,同时也应当避免出现一些易被攻击者识别为蜜罐的特征。针对这类挑战,本赛道收集整理了大量协议交互流量以及常见的识别蜜罐的特征,旨在激励选手探索新型蜜罐的设计技术与对抗识别的策略。本赛题从攻击者视角出发向选手部署的服务发送扫描流量,邀请选手设计更高效、智能且不易被识别的蜜罐服务,来模拟替代一些使用广泛但易被攻击的协议或服务。
(四)网络黑产分析赛道
挑战一:黄牛挂号日志分析
顶尖三甲医院拥有众多知名专家和稀缺的医疗资源。尤其是热门科室和专家的号源常常供不应求。这种稀缺性吸引了大量的黄牛,他们利用技术手段或人力抢占医院的挂号资源,通过抢号后高价倒卖牟取暴利。黄牛行为不仅加剧了普通患者的挂号难度,还影响了医疗系统的公平性,导致医院服务秩序混乱,损害了患者的合法权益。为应对这一问题,有关部门采取了一系列措施,包括实名制挂号、引入动态验证码和加强法律监管,但黄牛问题仍未完全绝,成为困扰医院和患者的顽疾。
本挑战要求选手对给定的大量脱敏挂号日志数据进行分析,探索新型黄牛对抗与检测手段。值得注意的是,本赛题的优胜团队将同时赢得与该顶级医院进行深度合作的机会。
挑战二:搜索引擎优化
搜索引擎优化(Search Engine Optimization,简称SEO)是一种通过了解搜索引擎的运作规则来提高网站在搜索引擎内排名的方法,从而增加网站的可见度和访问量。这种技术涉及网站结构、内容质量、关键词策略等多个方面。然而,一些不法分子滥用SEO技术,发展出“黑帽SEO(Black Hat SEO)”,通过欺骗或操纵搜索引擎算法获得不正当排名优势。常见手法包括关键词堆砌、链接农场等,严重影响用户体验和互联网生态。搜索引擎公司持续更新算法以打击这些行为。在本挑战中,参赛者将在真实的百度搜索引擎中一展身手,运用你的SEO技巧和创意,将你的网页推向搜索结果的顶峰。我们鼓励参赛者探索和应用合法、有效的SEO策略,以提高网页在搜索结果中的排名。通过这场比赛,我们希望参赛者能够深入理解SEO的原理,同时认识到合法的SEO策略对于网站长期发展的重要性。
请注意:本赛题要求选手提前准备好参赛所需使用的域名,并自行进行搜索引擎收录提交尝试,请注意域名格式具体要求详见赛题指南:SEO赛题指南
(五)漏洞分析赛道
挑战一:大模型应用——情报提取
在进行漏洞挖掘工作时,对特定目标的历史漏洞挖掘经验的学习是至关重要的一步。然而,传统的搜索引擎在面对海量数据时往往显得效率低下,难以快速有效地获取所需的关键信息。近年来,随着人工智能大模型技术的发展及其在自然语言处理方面的显著进步,利用大模型从海量漏洞分析文章中提取关键知识已经成为一种可行的方法。
本挑战要求选手利用大模型技术,对漏洞分析文章进行高效梳理,从中提取出有价值的摘要信息,任务包括但不限于:文献整理、文本预处理、关键信息提取、摘要生成、结果验证等。
挑战二:大模型应用——漏洞挖掘
漏洞挖掘是网络安全工作中不可或缺的一环,但传统的审计方法耗时耗力,且静态分析技术存在一定的局限性。随着人工智能技术特别是大模型的发展,通过对代码中的语义进行深度分析,实现更为精准的漏洞挖掘已经成为可能。这种新型的技术手段不仅提高了漏洞检测的准确性,还极大地提升了工作效率。
本题要求选手自行编写程序,并结合大模型技术自动化识别出漏洞样例中存在的安全隐患。具体任务包括:知识提取、代码分析、漏洞识别、误报消除等。通过本次比赛,参赛者不仅能够积累漏洞模式增强自身的漏洞挖掘能力,还能深入了解大模型在漏洞检测领域的应用前景。这不仅有助于提高个人的网络安全技术水平,也为未来网络安全工具的研发提供了新的思路。
挑战三:真实设备漏洞挖掘
在万物互联的时代,物联网设备已经成为我们生活中不可或缺的一部分。然而,这些连接万物的设备也带来了前所未有的安全挑战。在本题中,主办方提供12个真实目标,选手尝试发现并报告设备中存在的0day安全漏洞,并撰写相应漏洞报告提交补天平台(https://www.butian.net/),第一个满足比赛要求且验证通过的0day漏洞,将获得该目标的全部奖金,其他漏洞收录情况,按照补天漏洞收录标准判定。挑战三提前开赛,点击链接查看目标及奖金:2024漏洞挖掘实战目标清单
五、奖项设置
赛道 | 排名 | 荣誉 | 奖金 |
---|---|---|---|
AI安全 | 第1名 | 冠军 | ¥10,000.00+奖杯+荣誉证书 |
第2名 | 亚军 | ¥8,000.00+奖杯+荣誉证书 | |
第3名 | 季军 | ¥5,000.00+奖杯+荣誉证书 | |
第4名-10名 | 优秀团队 | 证书 | |
软件供应链 | 第1名 | 冠军 | ¥10,000.00+奖杯+荣誉证书 |
第2名 | 亚军 | ¥8,000.00+奖杯+荣誉证书 | |
第3名 | 季军 | ¥5,000.00+奖杯+荣誉证书 | |
第4名-10名 | 优秀团队 | 证书 | |
网络基础设施及IPv6 | 第1名 | 冠军 | ¥10,000.00+奖杯+荣誉证书 |
第2名 | 亚军 | ¥8,000.00+奖杯+荣誉证书 | |
第3名 | 季军 | ¥5,000.00+奖杯+荣誉证书 | |
第4名-10名 | 优秀团队 | 证书 | |
网络黑产分析 | 第1名 | 冠军 | ¥10,000.00+奖杯+荣誉证书 |
第2名 | 亚军 | ¥8,000.00+奖杯+荣誉证书 | |
第3名 | 季军 | ¥5,000.00+奖杯+荣誉证书 | |
第4名-10名 | 优秀团队 | 证书 | |
漏洞分析 | 第1名 | 冠军 | ¥10,000.00+奖杯+荣誉证书 |
第2名 | 亚军 | ¥8,000.00+奖杯+荣誉证书 | |
第3名 | 季军 | ¥5,000.00+奖杯+荣誉证书 | |
第4名-10名 | 优秀团队 | 证书 |