Paper Copilot：基于向量索引与大模型的本地文献RAG分析工具

学术 2024-10-11 17:28 中国台湾

Paper Copilot：基于向量索引与大模型的本地文献RAG分析工具

这是在使用Zotero时想到的， Zotero 也有一些与 AI 相关的插件，但目前尚未发现支持 RAG（检索增强生成）功能，且无法实现对多篇文献的综合分析，并与大模型进行交互。因此，我开发了 Paper Copilot 这款小工具。它基于向量索引与大模型技术，专为学术研究人员设计，旨在帮助用户更高效地管理、检索和分析海量文献。

Paper Copilot 支持通过本地自建知识库并结合 RAG 技术，为用户提供精准、专业的解答，显著提升文献研究的效率与准确性。此外，工具还可与 Zotero 的文献库联动，构建个性化的文献数据库，进一步扩展文献管理的能力。

项目地址

paper copilot

功能

文献索引与管理：支持PDF、TXT、Markdown和DOCX等多种文档格式的文本提取与向量化，自动创建和管理向量索引库。
智能问答：基于向量数据库和OpenAI模型，能够理解用户问题并在相关文献中检索答案。
聊天记录管理：支持保存、加载和清除聊天记录，便于用户跟踪和回顾对话历史。
用户友好的命令行界面：通过简单的命令操作，实现创建知识库、进行问答、管理聊天记录等功能。
知识库管理：支持创建、加载、保存和删除知识库，便于用户管理和切换不同的知识库。

安装

克隆仓库

git clone https://github.com/Code-WSY/Paper_Copilot.git
cd Paper_Copilot

安装依赖

pip install -r requirements.txt

配置环境变量在项目根目录下创建一个 .env 文件，并添加以下内容：

#数据库路径
DATABASE_PATH=database/index.db
#API_KEY
API_KEY=
#API_URL
BASE_URL=
#模型
MODEL=o1-mini
#批量大小
BATCH_SIZE=1000
#重复部分大小   
REPEAT_SIZE=200
#最大返回数
TOP_N=5
#关系阈值
RELATION_THRESHOLD=0.2
#构建知识库时的并行数
PARALLEL_NUM=4

使用方法

项目根目录运行：

python main.py

目前支持如下命令：

示例：导入Zotero文献库

首先运行这个项目，通过命令行键入/create 回车，通过选择文件夹，来导入Zotero文献：

选择是是选择文件，选择否则为遍历文件夹, 例如我的Zotero的文献储存位置是：D:\document\Zotero\storage，我先选择否，接着选中该文件夹即可，此时程序就会将所有文献进行向量化存储：

注意：如果并行数过大，API的速率限制可能会造成某些文件向量化时出现错误，此时只需要第二次重新选择该文件就行，程序会跳过已向量化的文件。

导入成功后就可以选择文件进行问答了：

选择一个或多个文件，可以进行单文献的问答，也可以进行多文献之间的对比。

http://mp.weixin.qq.com/s?__biz=MzI2OTQ4OTExOA==&mid=2247502136&idx=3&sn=1b155c498e25a5627306b9f86378baa1

学术之友

\x26quot;学术之友\x26quot;旨在建立一个综合的学术交流平台。主要内容包括：分享科研资讯，总结学术干货，发布科研招聘等。让我们携起手来共同学习，一起进步！

最新文章

香港理工大学/牛津大学 Edman Tsang课题组博士后/博士招聘

Nature新闻：中国申请科研经费变得更加困难

QM9star数据库发布：包含两百万个离子和自由基的量子化学计算平衡结构

第四期VASPKIT团队“机器学习赋能材料研究”专题培训

5代Intel 8581C服务器配置，在售最快配置

骆军委魏苏淮等人Nature: 提出免于退极化效应的光学声子软化新理论

第四期VASPKIT团队“机器学习赋能材料研究”专题培训

5代Intel 8581C服务器配置，在售最快配置

新加坡博士后以及博士机会-导师超级Nice

巩金龙/赵志坚最新NC，可解释机器学习双原子

胡培君最新综述，神经网络势+动态催化

第四期VASPKIT团队“机器学习赋能材料研究”专题培训

5代Intel 8581C服务器配置，在售最快配置

方国勇何晓等人JCTC：基于生成对抗网络和数据驱动潜在空间融合的晶体结构预测

ATOMKIT: 科研软件也可以有颜值

MDPI-software征稿启事：计算化学专栏

JACS最新2篇机器学习文章

5代Intel 8581C服务器配置，在售最快配置

第四期VASPKIT团队“机器学习赋能材料研究”专题培训

段文晖/徐勇两篇NC，等变神经网络泛函

学术之友：免费推广科研成果，助力人才招聘

DFT计算之家QQ群申请加入的说明

北京同步辐射光源贾逊课题组招聘博士后，基本年薪48.5万元（长期有效）

10月份6篇PRL文献精读

5代Intel 8581C服务器配置，在售最快配置

第四期VASPKIT团队“机器学习赋能材料研究”专题培训

1.1亿个结构DFT计算，Meta推出OMat24，AI驱动材料发现开源化

机器学习势与BTE结合利器-κALDo：一款多接口的基于玻尔兹曼输运方程的热输运计算器

MolPipeline：一个使用Scikit-learn中的RDKit处理分子的Python包

VASPKIT使用指南出炉：诚邀分享与反馈

宁波东方理工大学(暂名)招聘计算模拟博士后/研究员

2024年度美国物理学会新当选会士揭晓

南开刘锦程课题组招收2025级计算方向博士研究生

(推迟至11月举行)第四期VASPKIT团队“机器学习赋能材料研究”专题培训

（摘要提交10月15日截止）参会专家信息 l 第二十二次全国电化学大会

Code Composer：一个AI项目编码助手(简单复刻Cursor Composer的功能)

Paper Copilot：基于向量索引与大模型的本地文献RAG分析工具

学校奖励8万！靠一篇SCI论文奠定学术圈地位！

J. Am. Chem. Soc.: 基于机器学习的原子堆积效应研究

2024年诺贝尔物理学奖揭晓：人工智能领军人物荣获殊荣

(即将开课)第四期VASPKIT团队“机器学习赋能材料研究”专题培训

AMI: 高通量计算与机器学习实现TMDs/2D钙钛矿异质结的电子性质预测

西密歇根大学Dr. Jinghao Li课题组博士生招生

李巨Sci. Data：人工智能与材料科学的深度融合—新数据库的诞生与突破

5代Intel 8581C服务器配置，在售最快配置

Phys. Rev. B: 声子线宽对三声子和四声子散射的影响

5代Intel 8581C服务器配置，在售最快配置

WIREs Comput Mol Sci.：机器学习推动催化科学迈入数字化时代

(国庆后开课)第四期VASPKIT团队“机器学习赋能材料研究”专题培训

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉