美国初创公司Exa发布了他们的全新AI搜索产品Exa WebSets的预览版本
这是一款由全新的空间搜索引擎驱动的新型搜索工具。
传统搜索只能给你一堆相关网页,而 Exa WebSets 能理解你的需求,直接给你整理好符合条件的结果。
例如:你想找“拥有博士学位、开发者背景,毕业于全球顶尖大学而且还写过博客的人”?
这种需求对传统搜索来说几乎不可能实现。
Exa WebSets 可以搞定。
Exa WebSets 的搜索基于“语义理解”,也就是说,它能真正理解你想要的是什么,而不是单纯匹配几个关键词给你一堆网址。
Exa主要功能和特点:
语义搜索:Exa的搜索引擎能够理解语义意义,而不仅仅是关键词匹配,从而提供更相关的搜索结果。 内容抓取:可以从任意网页抓取完整、清理后的内容,为AI提供高质量的数据。 相似性搜索:通过URL或长文本找到相似的结果,使得搜索更精准。 大规模数据处理:能够处理多达100万条搜索结果,满足AI大规模数据处理的需求。 实时更新:每分钟爬取新的URL,确保AI始终获取最新的数据。 强大的过滤功能:可以按域名、日期范围或数据类别进行搜索,提供高度定制化的搜索体验
那么它是如何工作的?
Exa 构建了首个大规模“嵌入空间搜索引擎”,训练AI系统按“含义”整理整个互联网数据,而不是仅仅匹配关键词。
这种方式极大提高了搜索结果的精准性和关联性。
和传统的搜索引擎(比如 Google)不同。传统的搜索引擎是通过关键词来查找相关内容,而 Exa 的方法是通过理解“含义”来整理和搜索数据。
它的工作模式更像是一个“语义搜索引擎”,在庞大的数据海洋中构建了一种“语义索引”。
它可以对用户需求进行深度理解,并在语义上进行匹配,而不局限于简单的关键词查找。
当需要时,它会“深度挖掘”相关数据,甚至进行多次验证,确保结果的准确性和完整性。
具体来说:
关键词搜索 vs. 含义搜索:
传统的搜索工具会直接根据输入的关键词匹配网页内容。比如你搜索“AI创业公司”,它可能会找到那些包含“AI”和“创业公司”这两个关键词的网页。 Exa 的方法是通过 AI 理解查询的真正含义(语义),然后从互联网上找到所有与这个“概念”相关的数据。比如,你搜索“开发大语言模型的初创公司”,Exa 不仅会找到关键词匹配的内容,还还会理解你想要的具体对象,比如公司名称、行业特性、融资阶段等。
嵌入空间:Exa 的 AI 系统对整个互联网数据进行语义解析,识别每一段内容的意义和相关性。
数据被转化为语义向量,存储在一个高维空间中,向量之间的距离表示数据之间的语义关联。(这个你不需要懂,相当于储存在一个数据集中)数据不是直接存储:Exa 并未复制整个互联网内容,而是通过 AI 系统对现有网络内容进行解析,并建立一个语义向量空间。
每一段互联网内容(例如网页、博客、论文、数据库)都被转化为一个“向量”(一种数学表达)。这些向量在高维空间中按语义关系排列,向量之间的距离表示内容的相似度或相关性。
按需搜索:当用户输入查询时,系统会在嵌入空间中寻找与查询语义最接近的结果,而不是简单地查找关键词匹配。 简单类比:如果传统搜索引擎是一本索引密密麻麻的词典,Exa WebSets 则是一个“理解内容”的大脑,能根据意义将内容分组并找到最相关的内容。
更强的逻辑处理:
Exa 不仅能理解复杂的问题,还能根据这些问题找到多个维度上的符合条件的结果,比如同时满足“博士学位、开发者背景”、“毕业于全球顶尖大学”、“而且还写过博客的人”这种复杂条件的问题。
找到居住在湾区、曾在初创企业和大公司工作过的软件工程师。
数据量太大:互联网的数据体量是天文数字,直接存储整个互联网数据成本巨大,维护难度也高。 实时性需求:互联网内容是动态的,Exa 不需要将所有数据存入本地,而是通过“按需解析”的方式,在用户需要时动态检索相关内容。 高效查询:通过语义向量化的方式,不需要全盘扫描所有数据,而是通过AI计算快速找到与查询相关的内容。
个性化需求:满足更独特的请求,如寻找特定条件的约会对象。
示例:找一位金融行业、信托基金拥有者、身高 6’5”、蓝眼睛的男士
但是也有缺点
Exa WebSets 发现了一条新的搜索扩展法则:搜索所用计算资源与结果的全面性呈正相关。
Exa WebSets 搜索需要耗费大量的计算资源,但是搜索使用的计算量越大,结果越全面。
这就产生了一个问题:在效率和准确度之间如何权衡
所以Exa WebSets 采用了一种动态计算与验证机制
(1) 智能计算资源分配
传统搜索引擎:对所有查询一视同仁,搜索速度快但对复杂需求支持有限。 Exa 的动态计算:根据查询复杂性和所需精确度,动态调整计算资源。 例如: 简单查询可能在秒级完成。 复杂查询(如同时包含多重条件的筛选)会触发深度计算,耗费更多时间。
(2) 结果验证
Exa 系统不仅返回结果,还会在搜索后验证结果的准确性。 验证步骤包括: 比对结果的语义与用户需求的匹配度。 检查结果的真实性(避免过时或不准确内容)。
速度慢:由于对网页内容的处理复杂,一次搜索可能需要几分钟。 成本高昂:处理网页的方式(编码而非索引)消耗大量资源,Exa 目前仅处理了约 10 亿网页,远少于谷歌的 1 万亿。 简单查询效果差:对于简单的问答式搜索(如“某人是谁”),Exa 不如传统搜索引擎灵敏,因为嵌入技术对关键词的精准匹配还不够好。
尽管 Exa 目前仍然存在技术和效率上的不足,创始人 Bryk 对未来充满信心:
他相信随着嵌入技术的改进,Exa 能够弥补速度和覆盖范围的缺陷。 长期目标是完全抛弃对关键词的依赖,真正实现通过内容语义搜索来获取精准数据。
Exa AI获得了1700万美元的A轮融资,由Lightspeed领投,Nvidia的NVentures和Y Combinator参投。
与其他旨在取代谷歌的AI驱动搜索引擎不同,Exa的目标是创建一个专门为AI设计的搜索工具。
Exa的使命:
互联网包含人类的集体知识,但目前的搜索体验更像在垃圾场中导航,而非在知识图书馆中漫游。核心问题是互联网知识被大量信息掩埋。
Exa的使命是组织世界的知识,通过更好的搜索算法,过滤信息,提取真正的知识。
加入XiaoHu.ai 日报社群 每天获取最新的AI信息
____________
点赞,转发,关注关注关注!