真正的AI搜索引擎 能够完全理解你的意思并直接输出你要的结果

文摘   2024-12-04 19:40   安徽  

美国初创公司Exa发布了他们的全新AI搜索产品Exa WebSets的预览版本

这是一款由全新的空间搜索引擎驱动的新型搜索工具。

传统搜索只能给你一堆相关网页,而 Exa WebSets 能理解你的需求,直接给你整理好符合条件的结果。

例如:你想找“拥有博士学位、开发者背景,毕业于全球顶尖大学而且还写过博客的人”?

这种需求对传统搜索来说几乎不可能实现。

Exa WebSets 可以搞定。

Exa WebSets 的搜索基于“语义理解”,也就是说,它能真正理解你想要的是什么,而不是单纯匹配几个关键词给你一堆网址。

Exa主要功能和特点:
  1. 语义搜索:Exa的搜索引擎能够理解语义意义,而不仅仅是关键词匹配,从而提供更相关的搜索结果。
  2. 内容抓取:可以从任意网页抓取完整、清理后的内容,为AI提供高质量的数据。
  3. 相似性搜索:通过URL或长文本找到相似的结果,使得搜索更精准。
  4. 大规模数据处理:能够处理多达100万条搜索结果,满足AI大规模数据处理的需求。
  5. 实时更新:每分钟爬取新的URL,确保AI始终获取最新的数据。
  6. 强大的过滤功能:可以按域名、日期范围或数据类别进行搜索,提供高度定制化的搜索体验

那么它是如何工作的?

Exa 构建了首个大规模“嵌入空间搜索引擎”训练AI系统按“含义”整理整个互联网数据,而不是仅仅匹配关键词。

这种方式极大提高了搜索结果的精准性和关联性。

和传统的搜索引擎(比如 Google)不同。传统的搜索引擎是通过关键词来查找相关内容,而 Exa 的方法是通过理解“含义”来整理和搜索数据

它的工作模式更像是一个“语义搜索引擎”,在庞大的数据海洋中构建了一种“语义索引”。

它可以对用户需求进行深度理解,并在语义上进行匹配,而不局限于简单的关键词查找。

当需要时,它会“深度挖掘”相关数据,甚至进行多次验证,确保结果的准确性和完整性。

销售案例:定位潜在客户或目标公司
例如,搜索“所有开发新型大语言模型(LLM)芯片的AI初创企业,并且已完成A轮融资”,Exa Web Sets 能在后台完成复杂的匹配。


具体来说:

关键词搜索 vs. 含义搜索

  • 传统的搜索工具会直接根据输入的关键词匹配网页内容。比如你搜索“AI创业公司”,它可能会找到那些包含“AI”和“创业公司”这两个关键词的网页。
  • Exa 的方法是通过 AI 理解查询的真正含义(语义),然后从互联网上找到所有与这个“概念”相关的数据。比如,你搜索“开发大语言模型的初创公司”,Exa 不仅会找到关键词匹配的内容,还还会理解你想要的具体对象,比如公司名称、行业特性、融资阶段等。
嵌入空间 按需搜索
  • 嵌入空间:Exa 的 AI 系统对整个互联网数据进行语义解析,识别每一段内容的意义和相关性。

    数据被转化为语义向量,存储在一个高维空间中,向量之间的距离表示数据之间的语义关联。
    (这个你不需要懂,相当于储存在一个数据集中)

  • 数据不是直接存储:Exa 并未复制整个互联网内容,而是通过 AI 系统对现有网络内容进行解析,并建立一个语义向量空间。

    每一段互联网内容(例如网页、博客、论文、数据库)都被转化为一个“向量”(一种数学表达)。

    这些向量在高维空间中按语义关系排列,向量之间的距离表示内容的相似度或相关性。


  • 按需搜索:当用户输入查询时,系统会在嵌入空间中寻找与查询语义最接近的结果,而不是简单地查找关键词匹配。

    简单类比如果传统搜索引擎是一本索引密密麻麻的词典,Exa WebSets 则是一个“理解内容”的大脑,能根据意义将内容分组并找到最相关的内容。

更强的逻辑处理

  • Exa 不仅能理解复杂的问题,还能根据这些问题找到多个维度上的符合条件的结果,比如同时满足“博士学位、开发者背景”、“毕业于全球顶尖大学”、“而且还写过博客的人”这种复杂条件的问题。
招聘案例:根据特定条件(如地理位置、工作经历)筛选候选人。
找到居住在湾区、曾在初创企业和大公司工作过的软件工程师。

为什么不是索引整个互联网,而是按语义组织?
  1. 数据量太大:互联网的数据体量是天文数字,直接存储整个互联网数据成本巨大,维护难度也高。
  2. 实时性需求:互联网内容是动态的,Exa 不需要将所有数据存入本地,而是通过“按需解析”的方式,在用户需要时动态检索相关内容。
  3. 高效查询:通过语义向量化的方式,不需要全盘扫描所有数据,而是通过AI计算快速找到与查询相关的内容。

个性化需求:满足更独特的请求,如寻找特定条件的约会对象。
示例:找一位金融行业、信托基金拥有者、身高 6’5”、蓝眼睛的男士

但是也有缺点

Exa WebSets 发现了一条新的搜索扩展法则:搜索所用计算资源与结果的全面性呈正相关

Exa WebSets 搜索需要耗费大量的计算资源,但是搜索使用的计算量越大,结果越全面。

这就产生了一个问题:在效率和准确度之间如何权衡

所以Exa WebSets 采用了一种动态计算与验证机制

Exa WebSets 的独特之处在于它能动态分配计算资源,以确保结果的准确性和可靠性。以下是具体机制:

(1) 智能计算资源分配

  • 传统搜索引擎:对所有查询一视同仁,搜索速度快但对复杂需求支持有限。
  • Exa 的动态计算:根据查询复杂性和所需精确度,动态调整计算资源。
    例如:
    • 简单查询可能在秒级完成。
    • 复杂查询(如同时包含多重条件的筛选)会触发深度计算,耗费更多时间。

(2) 结果验证

  • Exa 系统不仅返回结果,还会在搜索后验证结果的准确性。
  • 验证步骤包括:
    • 比对结果的语义与用户需求的匹配度。
    • 检查结果的真实性(避免过时或不准确内容)。
目前局限性
  • 速度慢:由于对网页内容的处理复杂,一次搜索可能需要几分钟。
  • 成本高昂:处理网页的方式(编码而非索引)消耗大量资源,Exa 目前仅处理了约 10 亿网页,远少于谷歌的 1 万亿。
  • 简单查询效果差:对于简单的问答式搜索(如“某人是谁”),Exa 不如传统搜索引擎灵敏,因为嵌入技术对关键词的精准匹配还不够好。

尽管 Exa 目前仍然存在技术和效率上的不足,创始人 Bryk 对未来充满信心:

  • 他相信随着嵌入技术的改进,Exa 能够弥补速度和覆盖范围的缺陷。
  • 长期目标是完全抛弃对关键词的依赖,真正实现通过内容语义搜索来获取精准数据。
Bryk 还提到,一些用户甚至愿意等待几分钟,去换取完整的搜索结果。他的团队目前也在优化系统,逐步减少等待时间。

Exa AI获得了1700万美元的A轮融资,由Lightspeed领投,Nvidia的NVentures和Y Combinator参投。

与其他旨在取代谷歌的AI驱动搜索引擎不同,Exa的目标是创建一个专门为AI设计的搜索工具。

Exa的使命:

  • 互联网包含人类的集体知识,但目前的搜索体验更像在垃圾场中导航,而非在知识图书馆中漫游。核心问题是互联网知识被大量信息掩埋。

  • Exa的使命是组织世界的知识,通过更好的搜索算法,过滤信息,提取真正的知识。

官网可以申请排队注册:https://exa.ai/websets
__

加入XiaoHu.ai 日报社群 每天获取最新的AI信息

____________

End.


感  阅
谢  读

点赞,转发,关注关注关注


小互AI
XiaoHu.AI 学院(http://xiaohu.ai)学习如何让AI为你服务。加入小互AI学院,获取最新AI资讯、案例、项目、教程。学习如何使用AI...
 最新文章