谷歌内部项目：大模型AI智能体发现了代码漏洞

科技 2024-11-02 12:25 北京

机器之心报道

机器之心编辑部

开源数据库引擎 SQLite 有 bug，还是智能体检测出来的！

通常，软件开发团队会在软件发布之前发现软件中的漏洞，让攻击者没有破坏的余地。模糊测试（Fuzzing）是一种常见的软件测试方法，其核心思想是将自动或半自动生成的随机数据输入到一个程序中，并监视程序异常。

尽管模糊测试大有帮助，但有些漏洞难以甚至不可能通过模糊测试发现。

谷歌内部有一个名为 Project Zero 的软件安全研究团队，他们发现随着大型语言模型 (LLM) 的代码理解和一般推理能力的提高，LLM 将能够在识别和展示安全漏洞时重现人类安全研究人员的系统方法，最终弥补当前自动漏洞发现方法的一些盲点。

Project Zero 在 6 月介绍了 LLM 辅助漏洞研究框架 ——Naptime 架构，之后 Naptime 演变成了 Big Sleep 智能体，由 Google Project Zero 和 Google DeepMind 合作完成。

Naptime 架构

研究团队认为：与开放式漏洞研究相比，变体分析任务更适合当前的 LLM。通过提供一个起点（例如之前修复的漏洞的详细信息），可以消除漏洞研究中的很多歧义：「这是一个以前的错误；某个地方可能还有另一个类似的错误。」

现在，Big Sleep 智能体发现了第一个现实软件漏洞：SQLite 中可利用堆栈缓冲区下溢。

研究团队收集了 SQLite 存储库中最近的一些提交，手动删除了琐碎的和仅用于文档的更改，然后调整了 prompt，为智能体提供提交消息（commit message）和更改的差异，要求智能体检查当前存储库是否存在可能尚未修复的相关问题。

简单来说，SQLite 这个漏洞是在索引类型字段 iColumn 中使用了特殊的 sentinel 值 -1：

7476:   struct sqlite3_index_constraint {
7477:      int iColumn;              /* Column constrained.  -1 for ROWID */
7478:      unsigned char op;         /* Constraint operator */
7479:      unsigned char usable;     /* True if this constraint is usable */
7480:      int iTermOffset;          /* Used internally - xBestIndex should ignore */
7481:   } *aConstraint;            /* Table of WHERE clause constraints */

这创建了一个潜在的边缘情况，而函数 seriesBestIndex 无法正确处理这种边缘情况，导致在处理对 rowid 列有约束的查询时，将负索引写入堆栈缓冲区。在研究团队提供给智能体的构建中，启用了调试断言（debug assertion），并且此条件由第 706 行的断言检查：

619 static int seriesBestIndex(
620   sqlite3_vtab *pVTab,
621   sqlite3_index_info *pIdxInfo
622 ){
...
630   int aIdx[7];           /* Constraints on start, stop, step, LIMIT, OFFSET,
631                          ** and value.  aIdx[5] covers value=, value>=, and
632                          ** value>,  aIdx[6] covers value<= and value< */
633   const struct sqlite3_index_constraint *pConstraint;
...
642   for(i=0; i<pIdxInfo->nConstraint; i++, pConstraint++){
643     int iCol;    /* 0 for start, 1 for stop, 2 for step */
644     int iMask;   /* bitmask for those column */
645     int op = pConstraint->op;
...
705     iCol = pConstraint->iColumn - SERIES_COLUMN_START;
706     assert( iCol>=0 && iCol<=2 );
707     iMask = 1 << iCol;
...
713     if( pConstraint->usable==0 ){
714       unusableMask |=  iMask;
715       continue;
716     }else if( op==SQLITE_INDEX_CONSTRAINT_EQ ){
717       idxNum |= iMask;
718       aIdx[iCol] = i;
719     }
720   }

然而，实际上这个断言并不存在，因此该漏洞可能会被恶意利用。幸运的是，该团队在正式版本出现之前就发现了这个问题，因此 SQLite 用户没有受到影响。

毫无疑问的是，智能体在这次漏洞查找中起了关键作用，这也表明智能体在软件安全方面具备很大的应用潜力。

参考链接：

https://googleprojectzero.blogspot.com/2024/10/from-naptime-to-big-sleep.html

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650941364&idx=3&sn=027a3ed140232d26ec3972c2bfcdf88b

机器之心

专业的人工智能媒体和产业服务平台

RTX 4090可跑、完全开源，最快视频生成模型问世，实测一言难尽

RL「误人」？LeCun 在技术路线上又有何战略摇摆？

智能体零样本解决未见过人类设计环境！全靠这个开放式物理RL环境空间

研究大模型门槛太高？不妨看看小模型SLM，知识点都在这

大半年过去，主流视频生成模型们超越Sora了吗？

这才是真・开源模型！公开「后训练」一切，性能超越Llama 3.1 Instruct

阿里国际版o1来了，Marco-o1：聚焦开放式问题推理

英伟达开源福利：视频生成、机器人都能用的SOTA tokenizer

NeurIPS 2024 Oral | 还原所见！揭秘从脑信号重建高保真流畅视频

如今的智能体，已经像人一样「浏览」视频了，国内就有

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

上交大o1复现新突破：蒸馏超越原版，警示AI研发"捷径陷阱"

大模型不会推理，为什么也能有思路？有人把原理搞明白了

全球十亿级轨迹点驱动，首个轨迹基础大模型来了

扣子OpenAPI突进智能语音战场！点满低延时、定制化、随时打断和音色克隆技能（内测开启！）

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

诺奖得主哈萨比斯新作登Nature，AlphaQubit解码出更可靠量子计算机

神级项目训练GPT-2仅需5分钟，Andrej Karpathy都点赞

NeurIPS 2024 | 水印与高效推理如何两全其美？最新理论：这做不到

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

室温超导学术不端、多次Nature撤稿，这位印度裔学者被大学解雇

德国科学家激进观点：意识是虚拟的，存在于大脑构建的梦中

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

登上Nature的AI芯片设计屡遭质疑，谷歌发文反击，Jeff Dean：质疑者连预训练都没做

高通的自研架构芯片，正在整合生成式AI世界

发力了，Mistral对标ChatGPT全面升级le Chat，还祭出超大杯多模态模型

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

取人类与大模型之长，人机协作式智能软件开发框架AgileGen来了

面向代码语言模型的安全性研究全新进展，南大&NTU联合发布全面综述

精度与通用性不可兼得，北大华为理论证明低精度下scaling law难以实现

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

可以实现零代码开发的OPPO智能体平台，到底强在哪？

继良品率低后，英伟达Blackwell又出过热问题，说好的明年初发货呢？

NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强？北大、MIT团队给出理论解释

对标o1，Kimi放出了最能打的国产模型

怎样保证你不是AGI独裁者？马斯克为何退出OpenAI？早期邮件公开了

从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，照样能跑酷

扩展测试时计算是万能的吗？Scaling What成为关键

突破无规则稀疏计算边界，编译框架CROSS数倍提升模型性能

谁能进入下一轮？具身智能「练习生」的技术储备和商业路径有何异同？

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

LeCun 的世界模型初步实现！基于预训练视觉特征，看一眼任务就能零样本规划

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

率先解决多类数据同时受损，中科大MIRA团队TRACER入选NeurIPS 2024：强鲁棒性的离线变分贝叶斯强化学习

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉