今天是2024年12月03日,星期二,北京,天气晴。
今天,我们来谈谈AI搜索,目前各个大厂都在做,并且做的很同质化,来看看Ai搜索中的一些基本逻辑。社区则专门有一讲,讲了Ai搜索的产品逻辑。
而更进一步的,我们可以来看看如果是个人用户,有哪些可以直接使用的Ai搜索引擎项目。老刘整理了下,有12个开源AI搜索引擎项目,各位转需。
供各位参考,多思考,多总结,多实践;
一、AI搜索引擎的演变与分析
说到AI搜索,大家并不熟悉,从国外的perplexity开始,国内天工Ai搜索,360Ai搜索,秘塔搜索,豆包搜索,元宝搜索等,都给大家很深的印象。
我们输入一个问题,然后Ai搜索进行问题拆解或者扩展,检索网页,然后过滤,排序,最后送给大模型做摘要然后坐呈现,做追问等,相当于是大模型把检索到的内容做了一次总结。
而回到整个技术发展来看,在文章https://data.eastmoney.com/report/zw_industry.jshtml?infocode=AP202404171630397168中,可以看到搜索产品的整个研发发展路线以及对应的技术点:
从技术实现流程上讲,AI搜索通过AI理解用户意图、高效召回内容、生成全而准的内容,有效解决传统搜索痛点。底层依赖的,本质上就是一个检索增强生成(RAG),包括信息检索和答案生成两部分,即在数据库(所以底库的质量是很重要的)中检索用户问题的相关内容,并形成总结输入大模型,并由大模型输出最终答案,且答案具备索引功能,能对外部信息来源进行标记(这样能够引证)。
所以我们会发现,底库基本决定了这个Ai搜索的质量,用户群体。360,百度,这类搜索公司,其有天然的搜索优势,有自己的基本盘,不会受制于人,称之为大搜,但搜索底库的质量不同,需要考虑内容的广度【收录范围,网站数】、内容的深度【加工程度,网页很杂且脏】、内容的速度【实效性,对于新信息的快速抓取能力】,这些直接影响了AI搜索的召回质量。
各家的召回和ranking策略不会有太大区别。其实,我们可以很明显的感受到,腾讯的ima或者元宝搜索,其搜出来的东西明显是不一样的,或许会显得更干净、更垂直一点,其底库是公众号文章,其内容深度、时效性是比较好的,因为有很多跟进前沿的创作者们。而其它没有自建搜索引擎的,则会更难一些,差异性的优势不会太明显,可能就是在展示上做些文章,就是AI搜索的展示,可以以秘塔搜索为例:
二、12个开源AI搜索引擎项目
当然,在在开源项目侧,目前有的开源可用的AI搜索引擎项目,老刘找到了12个。
1、Morphic:https://github.com/miurla/morphic
2、Search with Lepton:https://github.com/leptonai/search_with_lepton
3、Perplexica:https://github.com/ItzCrazyKns/Perplexica
4、Zure-search-openai-demo:https://github.com/Azure-Samples/azure-search-openai-demo
5、TurboSeek:https://github.com/Nutlope/turboseek
6、FarFalle:https://github.com/rashadphz/farfalle
7、Gerev:https://github.com/GerevAI/gerev
8、MemFree:https://github.com/memfreeme/memfree
9、MindSearch:https://github.com/InternLM/mindsearch
10、OpenPerPlex:https://github.com/YassKhazzan/openperplex_backend_os
11、llm-answer-engine:https://github.com/developersdigest/llm-answer-engine
12、search4all:https://github.com/fatwang2/search4all
参考文献
1、https://data.eastmoney.com/report/zw_industry.jshtml?infocode=AP202404171630397168
关于我们
老刘,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。
对大模型&知识图谱&RAG&文档理解感兴趣,并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的,欢迎加入社区,社区持续纳新。
加入会员方式:关注公众号,在后台菜单栏中点击会员社区->会员入群加入