真正的AI搜索引擎能够完全理解你的意思并直接输出你要的结果

文摘 2024-12-04 19:40 安徽

美国初创公司Exa发布了他们的全新AI搜索产品Exa WebSets的预览版本

这是一款由全新的空间搜索引擎驱动的新型搜索工具。

传统搜索只能给你一堆相关网页，而 Exa WebSets 能理解你的需求，直接给你整理好符合条件的结果。

例如：你想找“拥有博士学位、开发者背景，毕业于全球顶尖大学而且还写过博客的人”？

这种需求对传统搜索来说几乎不可能实现。

Exa WebSets 可以搞定。

Exa WebSets 的搜索基于“语义理解”，也就是说，它能真正理解你想要的是什么，而不是单纯匹配几个关键词给你一堆网址。

Exa主要功能和特点：

语义搜索：Exa的搜索引擎能够理解语义意义，而不仅仅是关键词匹配，从而提供更相关的搜索结果。
内容抓取：可以从任意网页抓取完整、清理后的内容，为AI提供高质量的数据。
相似性搜索：通过URL或长文本找到相似的结果，使得搜索更精准。
大规模数据处理：能够处理多达100万条搜索结果，满足AI大规模数据处理的需求。
实时更新：每分钟爬取新的URL，确保AI始终获取最新的数据。
强大的过滤功能：可以按域名、日期范围或数据类别进行搜索，提供高度定制化的搜索体验

那么它是如何工作的？

Exa 构建了首个大规模“嵌入空间搜索引擎”，训练AI系统按“含义”整理整个互联网数据，而不是仅仅匹配关键词。

这种方式极大提高了搜索结果的精准性和关联性。

和传统的搜索引擎（比如 Google）不同。传统的搜索引擎是通过关键词来查找相关内容，而 Exa 的方法是通过理解“含义”来整理和搜索数据。

它的工作模式更像是一个“语义搜索引擎”，在庞大的数据海洋中构建了一种“语义索引”。

它可以对用户需求进行深度理解，并在语义上进行匹配，而不局限于简单的关键词查找。

当需要时，它会“深度挖掘”相关数据，甚至进行多次验证，确保结果的准确性和完整性。

销售案例：定位潜在客户或目标公司

例如，搜索“所有开发新型大语言模型（LLM）芯片的AI初创企业，并且已完成A轮融资”，Exa Web Sets 能在后台完成复杂的匹配。

具体来说：

关键词搜索 vs. 含义搜索：

传统的搜索工具会直接根据输入的关键词匹配网页内容。比如你搜索“AI创业公司”，它可能会找到那些包含“AI”和“创业公司”这两个关键词的网页。
Exa 的方法是通过 AI 理解查询的真正含义（语义），然后从互联网上找到所有与这个“概念”相关的数据。比如，你搜索“开发大语言模型的初创公司”，Exa 不仅会找到关键词匹配的内容，还还会理解你想要的具体对象，比如公司名称、行业特性、融资阶段等。

嵌入空间按需搜索

嵌入空间：Exa 的 AI 系统对整个互联网数据进行语义解析，识别每一段内容的意义和相关性。

数据被转化为语义向量，存储在一个高维空间中，向量之间的距离表示数据之间的语义关联。（这个你不需要懂，相当于储存在一个数据集中）
数据不是直接存储：Exa 并未复制整个互联网内容，而是通过 AI 系统对现有网络内容进行解析，并建立一个语义向量空间。

每一段互联网内容（例如网页、博客、论文、数据库）都被转化为一个“向量”（一种数学表达）。

这些向量在高维空间中按语义关系排列，向量之间的距离表示内容的相似度或相关性。

按需搜索：当用户输入查询时，系统会在嵌入空间中寻找与查询语义最接近的结果，而不是简单地查找关键词匹配。
简单类比：如果传统搜索引擎是一本索引密密麻麻的词典，Exa WebSets 则是一个“理解内容”的大脑，能根据意义将内容分组并找到最相关的内容。

更强的逻辑处理：

Exa 不仅能理解复杂的问题，还能根据这些问题找到多个维度上的符合条件的结果，比如同时满足“博士学位、开发者背景”、“毕业于全球顶尖大学”、“而且还写过博客的人”这种复杂条件的问题。

招聘案例：根据特定条件（如地理位置、工作经历）筛选候选人。
找到居住在湾区、曾在初创企业和大公司工作过的软件工程师。

为什么不是索引整个互联网，而是按语义组织？

数据量太大：互联网的数据体量是天文数字，直接存储整个互联网数据成本巨大，维护难度也高。
实时性需求：互联网内容是动态的，Exa 不需要将所有数据存入本地，而是通过“按需解析”的方式，在用户需要时动态检索相关内容。
高效查询：通过语义向量化的方式，不需要全盘扫描所有数据，而是通过AI计算快速找到与查询相关的内容。

个性化需求：满足更独特的请求，如寻找特定条件的约会对象。
示例：找一位金融行业、信托基金拥有者、身高 6’5”、蓝眼睛的男士

但是也有缺点

Exa WebSets 发现了一条新的搜索扩展法则：搜索所用计算资源与结果的全面性呈正相关。

Exa WebSets 搜索需要耗费大量的计算资源，但是搜索使用的计算量越大，结果越全面。

这就产生了一个问题：在效率和准确度之间如何权衡

所以Exa WebSets 采用了一种动态计算与验证机制

Exa WebSets 的独特之处在于它能动态分配计算资源，以确保结果的准确性和可靠性。以下是具体机制：

(1) 智能计算资源分配

传统搜索引擎：对所有查询一视同仁，搜索速度快但对复杂需求支持有限。
Exa 的动态计算：根据查询复杂性和所需精确度，动态调整计算资源。
例如：

简单查询可能在秒级完成。
复杂查询（如同时包含多重条件的筛选）会触发深度计算，耗费更多时间。

(2) 结果验证

Exa 系统不仅返回结果，还会在搜索后验证结果的准确性。
验证步骤包括：

比对结果的语义与用户需求的匹配度。
检查结果的真实性（避免过时或不准确内容）。

目前局限性

速度慢：由于对网页内容的处理复杂，一次搜索可能需要几分钟。
成本高昂：处理网页的方式（编码而非索引）消耗大量资源，Exa 目前仅处理了约 10 亿网页，远少于谷歌的 1 万亿。
简单查询效果差：对于简单的问答式搜索（如“某人是谁”），Exa 不如传统搜索引擎灵敏，因为嵌入技术对关键词的精准匹配还不够好。

尽管 Exa 目前仍然存在技术和效率上的不足，创始人 Bryk 对未来充满信心：

他相信随着嵌入技术的改进，Exa 能够弥补速度和覆盖范围的缺陷。
长期目标是完全抛弃对关键词的依赖，真正实现通过内容语义搜索来获取精准数据。

Bryk 还提到，一些用户甚至愿意等待几分钟，去换取完整的搜索结果。他的团队目前也在优化系统，逐步减少等待时间。

Exa AI获得了1700万美元的A轮融资，由Lightspeed领投，Nvidia的NVentures和Y Combinator参投。

与其他旨在取代谷歌的AI驱动搜索引擎不同，Exa的目标是创建一个专门为AI设计的搜索工具。

Exa的使命:

互联网包含人类的集体知识，但目前的搜索体验更像在垃圾场中导航，而非在知识图书馆中漫游。核心问题是互联网知识被大量信息掩埋。
Exa的使命是组织世界的知识，通过更好的搜索算法，过滤信息，提取真正的知识。

官网可以申请排队注册：https://exa.ai/websets

加入XiaoHu.ai 日报社群每天获取最新的AI信息

____________

End.

感阅

谢读

点赞，转发，关注关注关注！

小互AI

XiaoHu.AI 学院（http://xiaohu.ai）学习如何让AI为你服务。加入小互AI学院，获取最新AI资讯、案例、项目、教程。学习如何使用AI...

最新文章

小互AI年度总结：2024重大AI技术和超实用AI工具盘点...

中学生都能看懂：10 分钟搞懂ChatGPT的工作原理...

深度评测| 豆包全新视觉理解模型能力强到飞起能跨模态和你一起协作

真正实现说话就能PS图片 Gemini 2.0混合多模态能力展示

OpenAI 新功能 Project 评测及教程

AI 进入智能代理时代：一文深度了解Google 最新 AI 模型 Gemini 2.0模型到底有多强

教程：通过AI生成可爱中文图像海报和手绘菜单路边广告设计作坊要倒闭

Runway 又更新了现在可以将你的表演、声音转移到其他视频角色身上

轻松打造出各种AI专家 OpenAI 昨晚王炸更新灵感竟来自字节论文

微软推出炸裂的Copilot Vision 功能可实时监控你的上网行为随时提供AI帮助

更快、更聪明 OpenAI发布了正式版o1和o1 Pro推理模型（内涵发布会中文视频完整版）

真正的AI搜索引擎能够完全理解你的意思并直接输出你要的结果

深度评测 | 1000亿搞出来的AI搜索到底靠不靠谱？？？

Google开发出能像Photoshop一样将视频智能分解成多个图层的视频编辑技术

评测教程 | Claude 允许你自定义回复的语气和形式还能自由设定和学习你的写作风格

评测 | Claude 允许你自定义回复的语气和形式还能自由设定和学习你的写作风格

只需在图像上画几笔即可轻松编辑图像支付宝推出AI驱动的智能图像编辑系统

GetPickle AI：克隆一个你的替身让他帮你开会而你可以逍遥自在...

你们拿来天天办公交差，人家却用来搞副业入账百万...hhh

OpenAI 官方发布： ChatGPT 学生写作指南指导学生如何正确使用GPT

炸裂：P图软件将全部倒闭字节跳动发布AI图像编辑工具只需一句话即可实现全自动P图

ChatGPT 帮我制定护肤方案 2个月让我的皮肤变成了这样...

Siri 可以实时读取你屏幕信息并执行操作苹果正式推出集成 Siri 和 Apple Intelligence新框架

字节跳动发布只需你的一张照片即可将任意视频角色的表情和动作转移到你身上

一句话手机自动帮你点外卖、订酒店买东西智谱 AI 这次真的是国际领先了

Runway 新工具：人人都可拍动画片可以把视频转换成任意风格虚拟角色动画并且保持表情语音口型同步

Anthropic 发布一项炸裂的新功能 AI 可以模仿人类访问电脑帮你自动干活

让美女转身成为可能 Adobe 推出全新AI 工具可以像旋转3D 对象一样旋转 2D 图像

全球首创桌面双轮足式AI机器人接入了ChatGPT 能跑、能看、能说、倒不了...

让你的蓝牙耳机永不断电通过你的“皮肤来供电” 让可穿戴设备没有电池也能工作

教你如何激活GPTSearch 并将 Chrome 浏览器默认搜索引擎替换成 GPTSearch

学习“神器”来了！把任何书本上的图表、公式变成互动实验，物理知识轻松掌握！

超好玩的创意图像模型：用一张卡通图片总结4张真实人物照片

Anthropic CEO ：5到10年内 AI将助力人类扫除几乎所有疾病人类寿命有望翻倍达到150岁

超完整：特斯拉We Robot 发布会全纪录：完全无人驾驶出租车、Optimus 机器人、Robovan（机器人巴士）

小白也能开发应用：AI 帮你自动写代码自动运行并自动部署而且全部在浏览器中完成

哈佛大学俩学生开发出一种 AI 眼镜看你一眼即可扒光你的所有个人信息

OpenAI 旧金山开发者大会发布五大创新功能实时语音、视觉微调、模型蒸馏...

3.17亿粉丝全球第一网红 MRBEAST 公司内部培训手册曝光教你如何制造爆款内容

通过AI聊天直接一键生成你的专属古诗词卡片（附 Prompt及教程）

使用AI聊天一键生成高颜值社交名片全解析（附 Prompt及教程）

Google发布全球 185 个各大企业的生成式 AI 实际应用落地案例

OpenAI 首席科学家MIT演讲：揭示 o1模型训练核心秘密激励模型学习是培养 AGI 的最佳方式

无需开颅手术将 ChatGPT 整合到脑机系统中控制电脑等各种设备

小互AI 日报：字节跳动开发出端到端语音同步翻译系统、卡内基梅隆大学教授：“人类需要进入高度戒备状态！”

Perplexity 联合创始人兼产品主管揭秘该公司借助AI形成的独特产品开发方法

小互AI日报：复旦大学开发出类似GPT 4o的端到端语音对话模型、Udio V1.5版中文音乐提升、Bing推出生成式搜索...

小互AI日报：Meta AI研究员：网络上的文本都是“狗屎”Llama3全部使用合成数据、Mistral发布123B开源模型…

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

真正的AI搜索引擎 能够完全理解你的意思并直接输出你要的结果

Exa主要功能和特点：

所以Exa WebSets 采用了一种动态计算与验证机制

(1) 智能计算资源分配

(2) 结果验证

真正的AI搜索引擎能够完全理解你的意思并直接输出你要的结果