速读:举个例子聊聊大模型知识库的另类用法,可以很有用。
废话
如今对AI大模型应该都非常熟悉了,很多人的手机上至少安装了文心、通义、星火、天工、智谱清言、Kimi中的一款或者多款APP,路子多点的可能有ChatGPT、Copilot、Claude、Llama、谷歌,玩的花一点的还有钉钉、Coze、豆包、秘塔甚至本地自建等等。不是这个领域的专家,不懂那些高端的技术和复杂的的玩法,只是喜欢看一些有意思的项目和产品,后续会通过大模型的“歪理学说”这个系列跟大家分享一些“旁门左道”的有趣用法。
今天聊聊AI大模型的知识库,我们知道大模型都是基于一定的算法、规模算力和海量的数据训练来的,即便是海量训练数据也存在局限性和时效性。所以针对特定领域或业务需求(尤其是企业应用),一般都会自建知识库来调优大模型,以确保数据质量和准确性,让大模型回答更加可靠,同时也能保障业务数据隐私安全,提高大模型的运行效率。
在个人应用方面,估计很多人的应用场景还只是与大模型聊天工具的一问一答,其实像智谱清言、Coze、钉钉AI等工具都提供了用户自建智能体/Bot功能,无论你是否有编程基础,都可以在这类平台上快速搭建基于 AI大模型的各类问答Bot,从简单的一问一答到处理复杂逻辑的工作流,而且允许智能体调用你的自建知识库或外部数据,还可以将搭建的Bot发布到各类社交平台和通讯软件上使用。
举个例子不是广告
例子的起因是这样的:最近有朋友提出个需求,要把一整本书的PDF扫描图片全部转为可复制文字,以方便查阅(书籍比较旧,很难找到对应电子书)。以前也分享过一款不错的OCR软件,可以进行批量图片文字识别,但对于几百上千页的书籍扫描件,这种识别软件的准确性和便利性肯定是不够了。
思路:所以就想到了云服务和大模型的能力,上面提到很多大模型平台都提供了自建知识库的功能,而且有的平台能够全面支持PDF、Word(doc/docx)、PPT、TXT、图片、邮件(eml)和网页链接等多种格式文档。只需要一键上传,文档内容识别就交给云服务处理了,解析完的文档还能通过大模型轻松实现知识归纳、构建、问答、推荐等,帮您精准获取有效信息,这不一劳永逸嘛。
具体做法:考虑到需要识别扫描件PDF(像智谱清言、文心等大模型工具的普通用户是不支持的),这里用到了网易有道AI开放平台免费提供的QAnything能力。QAnything可以实现文档知识库问答,采用网页爬虫/文档解析等技术,生成专属的个人知识库,读、查、问、写一站实现,提供快速、精准、高效的文档处理与知识管理体验。
平台网址:https://read.youdao.com/qanything/#/home
操作步骤:跟把大象装进冰箱一样简单,注册进入QAnything,点击新建知识库,点击管理知识库内容,上传需要解析的文档,等待解析完毕。
等文档解析成功后,就可以通过Bots建立问答机器人对文档进行查阅和问答了。步骤也很简单,点击Bots进入我的Bots页面,创建机器人,输入名称和简单介绍,平台会自动生成角色设定提示词(可以自己再编辑优化),然后在关联知识库处选择刚才新建的知识库即可。右边会提供调试预览界面,可以根据问答效果调整角色设定提示词进行优化。
- 不要编造答案,如果答案不在经核实的资料中或无法从经核实的资料中得出,请回答“我无法回答您的问题。”(或者您可以修改为:如果给定的检索结果无法回答问题,可以利用你的知识尽可能回答用户的问题。)
因为涉及内容版权,问答效果页面就不截图了,大概内容就是根据问题进行回答,并提供书籍里的具体内容出处。
编辑完成的机器人可以保存自己使用,也可以发布公开链接给别人使用。这样大象就装进去了。
再啰嗦几句
自建知识库可以实现个人资料的方便检索、总结和拓展使用,对提高工作效率非常有用。比如让大模型写材料时,基于自建知识库的回答效果是非常靠谱的,可以试试。
提供类似自建知识库的大模型平台很多,比如网易有道、Coze、智谱清言等等;其实文心、星火、Kimi等的聊天界面就可以直接上传PDF等格式文档进行解析和问答,只不过限制比较多、体验不太好罢了。
使用云服务平台自建知识库之类的服务时(尤其是公开分享时),一定要注意数据的规范和安全,不要造成数据侵权或者泄露;有条件和特殊需要的可以本地自建大模型和知识库,QAnything也提供了开源方案,类似的开源方案还有很多,比如Langchain-Chatchat、MaxKB、quivr等等。
有些平台会涉及到使用费用,在使用时请注意阅读相关说明。