手把手教你个人离线AI知识库搭建

文摘 2024-08-02 10:55 上海

声明：文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由用户承担全部法律及连带责任，文章作者不承担任何法律及连带责任。

博客新域名：https://gugesay.com

不想错过任何消息？设置星标↓ ↓ ↓

前言
搭建过程

模型选择
笔记工具
RAG
AnythingLLM

前言

前两天使用Ollama搭建了本地的ChatGPT。于是产生了一个想法，话说Notion在国内的访问越来越不顺畅，加之前两年买的NAS目前只做了个人手机云同步和云影音系统（还有大把空间没利用），倒不如将所有的笔记都放在本地，然后利用NAS完成个人云笔记，再配合目前的Ollama，尝试搭建一个本地离线版的知识库，说干就干。

搭建过程

模型选择

通过Gemma2与llama3.1的对比测评，最终选用llama3.1模型作为本地问答ChatGPT，安装也很简单,只需一条指令：

ollama run llama3.1

笔记工具

骨哥最近一直使用Typora作为主要的本地笔记管理工具，但是最近被Obsidian刷屏了，心想那就用用看，下载&安装：

https://obsidian.md/

然后就是将Notion上上百篇笔记迁移至本地（此处略过心酸的1W字…）

根据网上大部分人说的，使用copilot插件实现对本地笔记的AI智能问答，试用后的效果很差，具体有两点：

中文支持很差
回答很‘智障’

而且Obsidian的搜索功能一直被广大使用者吐槽，确实不太好用。那么有没有办法将笔记管理和本地AI相结合呢？

RAG

什么是RAG？

检索增强生成（RAG）是指对大型语言模型输出进行优化，使其能够在生成响应之前引用训练数据来源之外的权威知识库。大型语言模型（LLM）用海量数据进行训练，使用数十亿个参数为回答问题、翻译语言和完成句子等任务生成原始输出。在 LLM 本就强大的功能基础上，RAG 将其扩展为能访问特定领域或组织的内部知识库，所有这些都无需重新训练模型。这是一种经济高效地改进 LLM 输出的方法，让它在各种情境下都能保持相关性、准确性和实用性。

对于RAG的工具选择，骨哥最终选择了AnythingLLM。

AnythingLLM

关于 AnythingLLM 的工作原理（一图胜千言）：

下载地址：

https://anythingllm.com/download

多系统支持：

安装略过。

安装完成后，启动会进入自动引导界面，跟着界面一步步来：

这里选择Ollama，然后下一步：

继续下一步，然后创建一个新的Workspace，名字随便起：

完成后，就会看到和WebUI差不多的界面了。

接着继续配置，先将语言更改为简体中文：

接着选择调用的本地大模型：

向量数据库，使用默认的LanceDB即可：

Embedder设置：

骨哥这里选择的是nomic-embed作为Embedder，安装也很简单：

ollama pull nomic-embed-text

默认4096，最好改为128～512之间（数字越小代表文本文件会被切分的更加细致）。

最后在当前聊天的设置中将“文档相似性阈值”更改为“高”：

OK，所有设置完毕后，我们先丢给它一个PDF文档看看效果：

还不错，相当于本地拥有一个kimi机器人了。

接着把我的Markdown笔记丢个它看看，具体操作如下：

首先点击上传按钮：

然后将所有MarkDown笔记文件，全部丢进去：

可以看到，最下方支持网址提交，当你输入网址后，点击“Fetch Website”按钮，爬虫就会对指定的网址内容进行爬取。

接着点击“Move to Workspace”，将所有文件移入我们的WorkSpace：

最后点击“Save and Embed”按钮等待完成：

回到我们的聊天框，就可以在AnythingLLM中进行基于检索增强生成（RAG）的聊天或问答了，看看效果：

可以看到AnythingLLM除了使用基本的AI模型回答外，还拥有了关联本地文件的功能，简直不要太方便～

以上就是骨哥个人离线知识库搭建的全过程。当然还有更多功能有待发掘，希望本文能对你有所帮助。

PS：已经有很多小伙伴后台私信，要将个人电脑打造一个离线的CTF AI知识库，以后CTF比赛会不会演变为个人硬件与AI的比拼。

参考：https://blog.csdn.net/luomao2012/article/details/139457751

加入星球，随时交流：

（前50位成员）：99元/年
（前100位成员）：128元/年
（100位+成员）：199元/年

感谢阅读，如果觉得还不错的话，欢迎分享给更多喜爱的朋友～

====正文结束====

http://mp.weixin.qq.com/s?__biz=MjM5Mzc4MzUzMQ==&mid=2650259525&idx=1&sn=d98897e0ccc17dc2f63872ba249be4f7

骨哥说事

一个喜爱鼓捣的技术宅

最新文章

如何将低危的 SSRF 盲注升级为严重漏洞

已修复漏洞？如何绕过并再次利用！

研究了100份SSRF漏洞报告后的干货梳理

各大云 AccessKey 特征整理

信息收集技巧分享

如何从IIS欢迎页面中快速挖掘漏洞

2024年10月星球内容汇总

研究人员使用十六进制编码和表情符号实现ChatGPT越狱

JS利用【2024至尊版】

【$20,000】通过 DevTools 实现 Chrome 浏览器沙箱逃逸

发现Facebook SSRF，收获31500美元赏金的故事【2】

发现Facebook SSRF，收获31500美元赏金的故事【1】

【$1,060】GitLab HTML 注入漏洞

【0day】通过 iTunes 实现 Windows 本地提权

【CVE-2024-45409】GitLab 身份验证绕过分析

如何远程控制起亚汽车

2024年9月星球内容汇总

WPS Office攻击细节披露

【$2000】利用重置密码实现帐户接管

【$4133.70】利用 YouTube 窃取文件

如何为任意 YouTube 频道提供验证徽章

绕过 CSP，实现 Netlify CDN 上XSS

Gmail 中的 HTML 表单注入漏洞

【赏金15000美元】通过监控调试模式实现 RCE

Microsoft Copilot：从即时注入到泄露个人信息【部分】

利用 SQL 注入绕过机场安检

IIS欢迎页的安全隐患：从源代码到LFI的攻防之道

‘黑掉NASA’【2】：从发现漏洞到荣登名人堂之旅

‘黑掉NASA’【1】：从发现漏洞到荣登名人堂之旅

在 Copilot Studio 的帮助下实现SSRF【部分】

8月星球内容汇总

利用开放式重定向、2FA 绕过等漏洞获取$1600赏金奖励

巧妙利用内存分配的一种新型利用手段

【$2000】由于缓存配置错误导致授权绕过

IDOR之如何打破订阅限制

价值 3500 美元的管理面板绕过漏洞

hackerone上TOP5的开放重定向漏洞

Apache CVE-2023-25690 漏洞手动调试分析

疑似Ten**t 14亿数据泄露

打造绕过Defender的Windows reverse_tcp Shell【部分】

Blackhat 2024 USA PPT打包下载【62个】

巧妙利用业务逻辑漏洞，实现Google帐户接管

在 Instagram 上查看任何人的私人电子邮件和生日信息

Pixel7/8 Pro 安卓 14 内核漏洞利用

沉浸式翻译调用本地Ollama

手把手教你个人离线AI知识库搭建

ODT文件漏洞利用

本地搭建ChatGPT【Ollama + Gemma2】

在Kafka UI实现RCE的3种方法【部分】

2024年7月星球内容汇总

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉