12个开源AI搜索引擎项目及关于Ai搜索的一些思考

文摘   2024-12-03 10:30   北京  

今天是2024年12月03日,星期二,北京,天气晴。

今天,我们来谈谈AI搜索,目前各个大厂都在做,并且做的很同质化,来看看Ai搜索中的一些基本逻辑。社区则专门有一讲,讲了Ai搜索的产品逻辑。

而更进一步的,我们可以来看看如果是个人用户,有哪些可以直接使用的Ai搜索引擎项目。老刘整理了下,有12个开源AI搜索引擎项目,各位转需。

供各位参考,多思考,多总结,多实践;

一、AI搜索引擎的演变与分析

说到AI搜索,大家并不熟悉,从国外的perplexity开始,国内天工Ai搜索,360Ai搜索,秘塔搜索,豆包搜索,元宝搜索等,都给大家很深的印象。

我们输入一个问题,然后Ai搜索进行问题拆解或者扩展,检索网页,然后过滤,排序,最后送给大模型做摘要然后坐呈现,做追问等,相当于是大模型把检索到的内容做了一次总结。

而回到整个技术发展来看,在文章https://data.eastmoney.com/report/zw_industry.jshtml?infocode=AP202404171630397168中,可以看到搜索产品的整个研发发展路线以及对应的技术点:

从最开始的FTP搜索到分类目录检索【也就是,到文本链接分析搜索,再到各类垂搜,其本质上解决的,都是寻址或者信息过滤的过程。与传统搜索相比,AI搜索显得更为直接:

从技术实现流程上讲,AI搜索通过AI理解用户意图、高效召回内容、生成全而准的内容,有效解决传统搜索痛点。底层依赖的,本质上就是一个检索增强生成(RAG),包括信息检索和答案生成两部分,即在数据库(所以底库的质量是很重要的)中检索用户问题的相关内容,并形成总结输入大模型,并由大模型输出最终答案,且答案具备索引功能,能对外部信息来源进行标记(这样能够引证)。

所以我们会发现,底库基本决定了这个Ai搜索的质量,用户群体。360,百度,这类搜索公司,其有天然的搜索优势,有自己的基本盘,不会受制于人,称之为大搜,但搜索底库的质量不同,需要考虑内容的广度【收录范围,网站数】、内容的深度【加工程度,网页很杂且脏】、内容的速度【实效性,对于新信息的快速抓取能力】,这些直接影响了AI搜索的召回质量。

各家的召回和ranking策略不会有太大区别。其实,我们可以很明显的感受到,腾讯的ima或者元宝搜索,其搜出来的东西明显是不一样的,或许会显得更干净、更垂直一点,其底库是公众号文章,其内容深度、时效性是比较好的,因为有很多跟进前沿的创作者们。而其它没有自建搜索引擎的,则会更难一些,差异性的优势不会太明显,可能就是在展示上做些文章,就是AI搜索的展示,可以以秘塔搜索为例:

可以在现有的总结性回答上加入其他元素,比如历史记录、搜索范围、分享搜索结果、追问、思维导图组织、实体抽取、文配图等,当前也有一个趋势,就是跟多模态【数字人】进行结合,比如根据检索到的内容生成讲解博客音频、也可以生成博客视频等。

二、12个开源AI搜索引擎项目

当然,在在开源项目侧,目前有的开源可用的AI搜索引擎项目,老刘找到了12个。

1、Morphic:https://github.com/miurla/morphic

2、Search with Lepton:https://github.com/leptonai/search_with_lepton

3、Perplexica:https://github.com/ItzCrazyKns/Perplexica

4、Zure-search-openai-demo:https://github.com/Azure-Samples/azure-search-openai-demo

5、TurboSeek:https://github.com/Nutlope/turboseek

6、FarFalle:https://github.com/rashadphz/farfalle

7、Gerev:https://github.com/GerevAI/gerev

8、MemFree:https://github.com/memfreeme/memfree

9、MindSearch:https://github.com/InternLM/mindsearch

10、OpenPerPlex:https://github.com/YassKhazzan/openperplex_backend_os

11、llm-answer-engine:https://github.com/developersdigest/llm-answer-engine

12、search4all:https://github.com/fatwang2/search4all

参考文献

1、https://data.eastmoney.com/report/zw_industry.jshtml?infocode=AP202404171630397168

关于我们

老刘,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

对大模型&知识图谱&RAG&文档理解感兴趣,并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的,欢迎加入社区,社区持续纳新。

加入会员方式:关注公众号,在后台菜单栏中点击会员社区->会员入群加入


老刘说NLP
老刘,NLP开源爱好者与践行者。主页:https://liuhuanyong.github.io。老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
 最新文章