006-AutoCoder 开启索引，减少上下文

科技其他 2024-03-23 17:27 上海

到今天为止，我们发现，AutoCoder 实际上会收集以下数据：

通过 source_dir 指定的源码目录
通过 urls 指定的文档
通过search_engine 指定的搜索引擎检索结果
你的需求描述
第三方包（目前仅支持python）

实际上当你在一个积累了很多年的项目上，你会发现项目代码有几十万行，尤其是 Java 代码，这导致大部门模型的上下文窗口无法满足需求。

实际上，直接把所有源码都带上，确实也有点太浪费了，正确的做法应该是：

根据用户的需求描述，自动筛选相关的源码文件。
从筛选出来的源码文件，再筛选一级他们依赖的文件。

一般情况，经过这样的筛选，应该也就几个或者十几个文件，也能满足大部分代码生成的需求。

但是如何筛选这些文件呢？必须要构建索引。现在让我们看看如何在 AutoCoder 中构建索引。

source_dir: /tmp/t-pytarget_file: /home/winubuntu/projects/ByzerRawCopilot/output.txt 
model: qianwen_chatmodel_max_length: 2000model_max_input_length: 100000anti_quota_limit: 5
project_type: py
skip_build_index: false
query: >  修改 server.py ，在代码 app = FastAPI()后  增加 ray 的初始化连接代码。

为了能够开启索引功能，需要保证如下两个参数开启：

skip_build_index 设置为 false
model 参数必须设置

现在，让我们执行下上面的query:

auto-coder --file ./examples/from-zero-to-hero/006_index_cache.yml

此时，会在终端出现如下信息：

try to build index for /tmp/t-py/server/server.py md5: ad3f4e16f2a2804f973bdd67868eac5dparse and update index for /tmp/t-py/server/server.py md5: ad3f4e16f2a2804f973bdd67868eac5dTarget Files: [TargetFile(file_path='/tmp/t-py/server/server.py', reason="该文件包含了初始化 FastAPI 实例，并且用户要求在 'app = FastAPI()' 之后增加 ray 的初始化连接代码")]Related Files: []

可以看到，因为我们是python项目，所以系统会收集 .py 结尾的文件，然后对每一个文件构建索引。

打开 /tmp/t-py 目录：

(byzerllm-dev) (base) winubuntu@winubuntu:~/projects/ByzerRawCopilot$ ll /tmp/t-pytotal 164drwxrwxr-x   4 winubuntu winubuntu   4096  3月 22 19:37 ./drwxrwxrwt 251 root      root      151552  3月 22 19:09 ../drwxrwxr-x   2 winubuntu winubuntu   4096  3月 22 19:38 .auto-coder/drwxrwxr-x   2 winubuntu winubuntu   4096  3月 21 19:50 server/

可以看到有个 .auto-coder 目录，里面就是有我们的索引文件。

接着你应该看到，根据用户的query,我们找到了目标文件TargetFile(file_path='/tmp/t-py/server/server.py'，并且给出了为什么是这个文件的原因：

该文件包含了初始化 FastAPI 实例，并且用户要求在 'app = FastAPI()' 之后增加 ray 的初始化连接代码

接着他会找这个文件依赖的文件，因为我们这个项目只有一个文件，所以找不到其他的文件了。

这样，我们就能大大缩小最后给到大模型去生成代码的上下文了。

http://mp.weixin.qq.com/s?__biz=MzIyNzQyNzgxNQ==&mid=2247484202&idx=1&sn=a5a1e7597c56eed85254d9043fd99784

祝威廉

架构/大数据/机器学习的心得和体会，也会因为爱情和生活写首诗

最新文章

大模型的智力未来如何继续提升的一点想法

在AI大模型时代遨游，你不得不知道的一些事

AI辅助编程的核心竞争力是什么

auto-coder.RAG: Order-Keep 优化

llm-native RAG： auto-coder.rag 日拱一卒

端到端的 NL2SQL 引擎: Super-Analysis 震撼来袭，一个不同于市面已有产品的存在

一个 /design 指令让你成为设计师

全球首发：第二代 RAG 系统 auto-coder.rag 相比市面主流RAG系统 20%-60% 效果提升

第一款已上线的纯AI开发的微信小程序开源了

大模型的第一个杀手级应用场景出来了

当你看到一个github 项目后....（auto-coder.chat 最简教程）

AI辅助编程里的 Atom Group 的概念和使用

简单和大家聊聊nlp2sql 以及 SQL数据分析存在的问题，以及解决方案。

让你的 terminal 秒变warp 自带自然语言交互buff

编码效率提升只是提升编码效率？Naive!/老板必看系列

世界上最简单最暴力的 RAG 系统

auto-coder.chat：如何自动化开发基于大模型的应用

让大模型使用 byzerllm 从 0 实现RAG应用

从Python翻译Go代码谈起：AI辅助编程的现状与展望

Byzer Storage: 可甜可咸最易用的AI存储引擎

99.99%AI血统的打工人效率神器，帮你一键续写代码、文档、写作

我开发了一个具有99.99% AI血统的软件

auto-coder 新agent 帮你自动撰写 auto-coder YAML 文件

什么，一不小心打造了一个基于大模型的操作系统

探讨大模型未来：从Scaling Law到数据红利再到终极Token工厂

关于auto-coder的一次辩经

用 SQL 快速对百万图片生成图片解读

经历了2000万token的洗礼后，我找到了辅助编程的最佳组合

020- 使用AutoCoder本地快速构建程序员专有知识库

AutoCoder 副作用，秒变命令行版Siri，再也不用复制黏贴命来管理大模型了

使用大模型只需要像对接数据库一样，你喜欢了么

我们把 Prompt 函数和类更进一步了

014 - AutoCoder 如何使用 Ollama

AI-Native的应用长什么样子

010-AutoCoder 如何在公司级别使用

011-AutoCoder最佳实践之组合大模型API/Web订阅

012-AutoCoder如何保障auto_merge模式下的代码安全

为什么不是Github Copilot,不是 Devin 而是 AutoCoder

008-如何支持各种语言的项目

009-AutoCoder如何阅读第三方库源码

006-AutoCoder 开启索引，减少上下文

007-番外篇 AutoCoder里配置的model究竟用来干嘛

004-AutoCoder 边看代码边看文档写代码

005-AutoCoder 使用搜索引擎

003- AutoCoder 使用Web版大模型，性感的Human As Model 模式

002- 用 AutoCoder 添加和修改代码

# AutoCoder-001自动创建模板项目

AutoCoder 快速使用指南

命令行版Devin 来了: Auto-Coder

最好的Prompt管理和使用依然是 Class 和 Function - 继续让LLM和编程语言融合

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉