大模型用于代码扫描，论文一

2024-12-23 07:35 北京

从软件工程的角度说，漏洞(BUG)发现越早，解决的成本越低，所以，很多问题倾向于在代码阶段就解决，伴随着这个需求，产生了一系列的应用，这里边，SAST(Static Application Security Testing 静态应用安全扫描)，聚焦代码里出现的漏洞，得到广泛的应用。

SAST技术已经发展了20多年，象Coverity, Fortify等工具，有着非常大的影响力，已经成为软件开发流程中不可缺少的环节。

但传统的SAST扫描技术，以基于规则的方法为主要发现手段，上下文处理不足，存在误报率高，漏洞发现少的问题，在AI技术发展中，从深度学习开始，就开始为SAST增加AI能力。

大模型出现后，相关的研究开始迅速增加，出现了各种方法。系统在发展初期，需要各种尝试，一般企业没时间，也没必要每种方法都尝试，这时候，研究论文是比较好的方法，毕竟大学和研究机构更喜欢，也更擅长做这个，而且也愿意分享。

本文来自论文LSAST: Enhancing Cybersecurity through LLM-supported Static Application Security Testing（https://arxiv.org/html/2409.15735v2）

文中详细介绍了大模型在SAST中的用法及结合工具的八种方法，并列出了测试结果，非常值得参考。文章较长，阅读需要点耐心。

一、大模型的用法

将传统的SAST工具与大模型结合。

文中选择Bearer,(这是个开源扫描器，在https://github.com/Bearer/bearer）

Bearer的漏洞扫描结果一般是这个样子

“cwe_ids” ：[
“78”
]，
“id” ：“javascript_lang_os_command_injection” ，
"title" : "操作系统命令中未经过清理的用户输入" ,
"description" : "使用未清理的...执行操作系统命令" ,
“行号” ：39，
“完整文件名” ：“/Users/User/repos/dvna/core/appHandler.js” ，
“来源” ：{
“开始” ：39，
“结束” ：44，
}}

格式化输出为

'CWE-943 (第 59-65 行)' ，'CWE-943 （第 85-89 行）' ，'CWE-943 （第 107-111 行）' ，'CWE-943 (第 145-149 行)' ，'CWE-611 （第 235 行）' ，'CWE-78 （ 第 39-44 行）'

把代码和Bearer的报告写成这样的prompt：

代码：{目标代码}使用SAST扫描仪扫描代码后，我们发现以下漏洞：{ bearer_result }你是一个非常高效的漏洞扫描器。请仔细执行以下任务：-评估给定的代码是否包含除SAST扫描器发现的漏洞之外的任何其他漏洞。-仅输出SAST扫描器未发现的漏洞。-可能存在多个漏洞-仅输出在给定代码中100 %确定存在的漏洞。-如果你没有发现任何其他漏洞，只需回答：“未发现任何其他漏洞”-如果你发现一个漏洞结构，你的答案如下：“CWE-ID： <CWE-ID>原因：<代码易受攻击的原因>line: <导致漏洞的行>code-snippet: <导致漏洞的代码片段>”

将上述prompt送给大模型，就能得到答案。

二、完整的结合的方法：RAG

如果您对RAG有什么问题，请先参阅通俗地说说RAG及其与大模型的结合

RAG的准备

数据集：采用系统汇总了过去一年的漏洞报告，提供了对 LLM 培训数据中可能未涵盖的新可利用漏洞的见解。

使用 HackerOne (https://hackerone.com/hacktivity/) API 用于收集漏洞数据。我们的努力已经产生了 873 份 JSON 格式的漏洞报告，这些报告均是过去一年内的，并且包含软件代码详细信息。

搜索方法

1）引入了 LLM4Vuln ，它根据代码功能执行相似性搜索。

首先总结漏洞报告中每个代码片段的功能，并使用 LLM 将这些总结存储在向量数据库中。在扫描目标代码 ( TC ) 以查找漏洞时，我们还使用 LLM 总结其功能。然后，我们在向量数据库中进行相似性搜索，以查找具有相似功能的漏洞代码片段 ( VC )。

这种方法称之为(FVR)，功能相似漏洞报告。

2）认识到代码功能和漏洞之间的弱相关性，我们开发了一种进行相似性搜索的新方法。在检查与漏洞相关的代码抽象时，通常会出现更强的相关性。抽象或代码最小化将源代码简化为执行所需的基本组件。为了执行基于抽象的相似性搜索，我们从漏洞报告中提取代码，并使用压缩器或 LLM 功能应用代码压缩技术。在压缩易受攻击的代码片段后，我们将它们存储在向量数据库中。

在扫描目标代码 ( TC ) 以查找漏洞时，我们首先最小化TC，然后搜索具有类似最小化表示的漏洞代码 ( VC )。我们汇总代码抽象并使用序列号将它们关联回原始报告，如前所述。这种方法确保我们收集的结构与目标代码高度相似的报告，从而增加了识别 VC和TC中存在的相同漏洞的可能性。

这种方法称之为(CVR),抽象代码相似漏洞报告。

以下是图中用到的一些术语

Abbreviation	Description
TC	目标代码
SR	SAST工具扫描结果
VR	漏洞报告
FVR	功能相似的漏洞报告
CVR	抽象代码相似漏洞报告
k	RAG Top k搜索里的k

方法一：直接使用大模型检测（基线）

这种方法非常简单，就是把代码给大模型，问大模型代码有什么漏洞。大模型本身就能够识别一部分。

方法二RAW 自有知识 LSAST 方法

在基线的基础上，我们将 SAST 扫描器结果SR和TC合并到 LLM 输入中作为我们的原始 LSAST 方法。这使 LLM 能够初步了解传统静态分析识别的已知漏洞，从而提高整体检测准确性。

方法三基于FVR的方法

在这种方法中，LLM 首先总结TC的功能。然后在包含已知易受攻击的代码片段功能的向量数据库中进行相似性搜索。检索最相关的FVR并将其与目标代码一起提供给 LLM。

方法四 FVR的 LSAST 方法

在方法三的基础上，加上SAST的扫描报告。

方法五基于CVR的方法

将源代码和CVR送给大模型检测。

方法六基于CVR的LSAST方法

就是源码加SAST报告加CVR送给大模型

方法七综合方法一 CVR+FVR的LSAST

把CVR和FVR及源码送给大模型

方法八综合方法二 CVR+FVR+SC

把CVR,FVR,SAST报告，源码一起送给大模型。

结果分析

采用DVWA (Damn Vulnerable Web Application)， DVNA (Damn Vulnerable NodeJS Application)， OWASP Juice Shop， WebGoat 四个开源项目进行测试，

在所有 4 个项目中，我们使用 3 种扫描方法扫描了总共 10 个文件，其中包含超过 15 种不同类型的漏洞。

结果一

Measure

方法五CVR

方法三FVR

方法七混合的

TP-Rate

23.81%

14.29%

28.57%

FP-Rate

100%

Accuracy

19.23%

10%

24%

Precision

50%

25%

60%

F1-Score

32.26%

18.18%

38.71%

结果二

Measure

方法一

方法二

方法八

TP-Rate

17.91%

68.89%

35.71%

FP-Rate

100%

Accuracy

24%

62%

32.61%

Precision

63.16%

86.11%

78.95%

F1-Score

38.71%

76.54%

49.18%

数据说明

真实阳性率（TP-Rate）：已报告漏洞中实际漏洞所占的比例。

误报率（FP-Rate）：错误的漏洞比例。

准确率：正确预测的实例与预测总数的比例。

精确度：预测的漏洞与实际漏洞的比例。

F1 分数：代表整体表现的单一分数。

三、总结

本文对各种测试的方法，数据集的使用，及测试结果，都有非常准确的描述，是一个非常有用的尝试。

方法八表现出非常高的准确率，可以借鉴采用。

注意表二中的方法一，它表示，即使不给任何信息，大模型对漏洞就有识别能力，并且效果看上去还不错。

AI与安全

理清逻辑，找到规律，看清趋势。作者前华为云高级安全专家，现为独立顾问。

最新文章

PentestGPT，用大模型辅助渗透测试，已开源

展望2025，拥抱AI是最好的选择

大模型用于代码检测，强化提示词效果更佳，论文二

大模型用于代码扫描，论文一

智谱，豆包，及国外大模型的发展路线分析

都用AI了，IT的有些分工是不是可以合并？

花了VC的钱，该算帐了

通俗地说说RAG及其与大模型的结合

如何使用大模型进行数据分类分级

一文讲清楚大模型在网络空间安全里的应用

AI大模型用于Fuzzing测试

2024年融资超过1亿美元的AI初创公司

深入分析Wiz的平台和三个产品系列

Reducto 用AI解析复杂非结构化文档，种子轮840万美元

Patronus.ai,用大模型测试大模型,很好的创新方向

大模型的评估方法

目标1000亿$,Wiz看好云安全市场

Socket.dev 获4000万美元投资，供应链安全又前进一步

软件供应链安全级别定义SLSA介绍

Cyberstarts 投资模式争议

数据安全很火还是以色列很火？Cyera 1.62亿美元收购Trail Security

微软安全大模型的应用架构

问七个问题完成事件调查，微软 Security Copilot的大模型经典用例

CrowdStrike 的NG-SIEM，是如何使用AI的？

CrowdStrike的AI能力分析

云备份态势管理，产品还没出来，一年三轮融资1.27亿美元

安全公司，9个月完成两轮融资,1.1亿美元

安全合规独角兽 Drata 裁员 9%

老旧软件的漏洞处理方法，米国军方的

两高一弱问题，想根治，很难

安全公司：战略选择

网络安全产业：真正的狼，是云厂商

DevSecOps里的安全活动

网络安全产业，甲方弱，乙方菜，资本乱灌水

内生安全概念梳理

大模型发展到哪个阶段了？

软件开源新模式

主机安全软件，自研还是外购？

干掉防火墙，大家都轻松

云中凭据管理的步步进化

国外很火，国内没有的安全产品

人话版安全概念(2) 供应链安全SAST,DAST,SCA…

人话版安全概念：CWPP，CSPM与CNAPP

如何安全地使用公有云-数据安全

安全公司，种子轮能融5300万美元?

那些被收购的以色列安全公司(2)-Demisto

那些被收购的以色列安全公司(1)-Cybellum

大规模蓝屏事件，甲乙方都该关注的五个问题

华为云的软件供应链安全

CrowdStrike的大规模蓝屏与华为的升级管控

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉