AI搜索的16个局限性和提升建议

文摘 2024-11-04 09:13 美国

基于LLM的生成式搜索引擎（Generative Search Engines）正在取代传统搜索引擎。答案引擎不仅检索与用户查询相关的来源，还综合引用这些来源的答案摘要。与21名参与者进行了一项研究：评估AI搜索引擎与传统搜索引擎的交互，识别出了16个AI搜索引擎的局限性，提出了16个AI搜索引擎设计建议，并与8个指标相关联。在三个流行的引擎（You.com、Perplexity.ai、BingChat）上实施了自动化评估，量化了常见的局限性（例如，频繁的幻觉、不准确的引用）和独特的特征（例如，答案信心的变化）。

AI搜索引擎的设计流程和用于审计这些系统的研究框架。展示了答案引擎的关键组成部分，包括它如何根据用户查询生成答案，重点关注输出，如来源、答案文本和引用。在右侧，展示了进行的可用性研究的发现摘要，以及You Chat、Bing Copilot和Perplexity的最终评分卡评估。

16个AI搜索引擎的局限性

总结了研究中发现的关于答案引擎的关键局限性，并将这些局限性归类为四个主题：答案文本（Answer Text）、引用（Citation）、来源（Sources）和用户界面（User Interface）。

按AI搜索引擎组件主题组织的研究发现摘要，以及明确识别并表达对每个组件担忧的参与者数量。

答案文本 (Answer Text)

需要客观细节 (A.I)：所有参与者（21/21）都表示生成的答案缺乏详细性和上下文深度。
缺乏全面观点 (A.II)：19名参与者表示答案引擎在处理有偏见的问题时未能展示多元观点。
自信语言呈现声明 (A.III)：16名参与者指出答案引擎在呈现声明时使用过于自信的语言。
过于简化的写作形式 (A.IV)：14名参与者认为答案引擎使用的语言过于简单，缺乏创造性和批判性思维。

[A] Perplexity的输出比较，它通过仅提供一个片面回应来反映问题中固有的偏见，以及[B] YouChat，它承认多种观点，避免呈现不完整的信息。

引用 (Citation)

错误归属和误解来源 (C.I)：21名参与者都提到答案引擎在引用时存在错误归属或误解来源的问题。
基于假设上下文挑选信息 (C.II)：19名参与者注意到答案引擎根据假设的上下文选择性地展示信息。
声明和信息生成缺少引用 (C.III)：18名参与者表示答案引擎在生成关键声明或信息时缺少必要的引用。
模型回应中源选择的透明度缺乏 (C.IV)：15名参与者对答案引擎在选择和优先考虑引用来源时的透明度表示担忧。

[A] Perplexity的输出比较，它缺乏对生成点的引用，导致对每个句子的实际来源产生混淆，以及[B] Copilot，它有效地指示了每个陈述的来源。

来源 (Sources)

低频使用的来源 (S.I)：19名参与者指出答案引擎用于总结的来源数量低。
检索的来源多于用于生成实际答案的来源 (S.II)：13名参与者提到答案引擎检索的来源多于实际用于生成答案的来源。
来源类型缺乏信任 (S.III)：12名参与者对答案引擎使用的来源类型表示不信任。
来源引用和内容重复 (S.IV)：12名参与者发现答案引擎检索的多个来源包含相同或高度相似的内容。

由Perplexity生成的结果[A]和相应的检索来源[B]。该图示说明了模型检索了8个来源，其中许多是同一来源的重复。尽管如此，模型以不同的方式引用它们，创造了内容多样化的假象，而实际上却是相同的。

用户界面 (User Interface)

缺乏选择和过滤来源的能力 (U.I)：17名参与者表示答案引擎的用户界面缺乏选择和过滤来源的能力。
生成和源选择中缺乏人工输入 (U.II)：17名参与者认为答案引擎在生成和源选择中缺乏人工输入。
验证和信任答案需要额外工作 (U.III)：14名参与者觉得答案引擎使得验证和信任答案需要额外的工作。
引用格式非标准化交互 (U.IV)：12名参与者对答案引擎的引用格式表示不满，认为它不是一个标准化的交互方式。

16个AI搜索引擎设计建议

概述了针对答案引擎的16个设计建议，并将这些建议与研究发现和相应的8个量化指标相联系。

每个设计建议的总结，以及它们所针对的系统弱点和相应的量化指标

16个AI搜索引擎设计建议的详细解释：

答案文本 (Answer Text) 设计建议

提供平衡的答案 (S-I)：对于可能具有引导性或偏见的问题，答案引擎应提供中立和平衡的答案，不假设或加强用户的偏见。
提供客观细节以支持声明 (S-II)：答案应包含支持其声明的客观细节，如数据和统计信息。
最小化无关信息 (S-III)：答案应避免包含无关的“填充”内容，确保每个句子都与问题直接相关。
反映来源的全面性 (S-IV)：答案引擎应透明地展示其选择和使用来源的理由，增强用户的信任。

引用 (Citation) 设计建议

避免无支持的引用 (C-I)：每个声明都应有适当的引用支持，否则应移除或明确其相关性。
双重检查引用错误 (C-II)：答案引擎应评估引用的外部一致性，减少错误归属或脱离上下文的引用。
引用所有相关的来源 (C-III)：对于需要多个参考点支持的声明，应引用所有相关来源。
检索的来源必须等于使用的来源 (C-IV)：确保列出的来源数量与实际用于构建答案的来源数量相匹配。

来源 (Sources) 设计建议

明确关注专家来源 (S-I)：答案引擎应识别并优先考虑权威来源，尤其是在它们提供明确答案时。
仅检索和使用必要的来源 (S-II)：模型应更选择性地检索来源，确保仅使用那些对于构建精确和上下文适宜的回答所必需的来源。
区分来源基础与模型生成内容 (S-III)：系统应区分基于来源的内容和模型生成的内容，增强透明度和用户信任。
明确提及并意识到来源类型 (S-IV)：答案引擎应智能评估和优先考虑来源类型，确保使用最可信和相关的来源。

用户界面 (User Interface) 设计建议

纳入人类对来源和文本的反馈 (U-I)：允许用户对搜索结果和生成内容提供反馈，提高回答的准确性和相关性。
实施交互式引用 (U-II)：开发交互式引用功能，如悬停弹出窗口，以提高用户对信息来源的理解和验证。
采用段落级本地引用 (U-III)：明确指示引用的确切信息和来源，提高透明度。
在信息不足时避免强制回答 (U-IV)：面对无法回答或信息不足的问题时，答案引擎应避免生成误导性或无关的回答。

AI搜索引擎响应处理到答案引擎评估框架（AEE）的8个指标的说明图

8个量化指标

一边倒答案 (One-Sided Answer)
过度自信的答案 (Overconfident Answer)
相关声明 (Relevant Statements)
未引用的声明 (Unsupported Statements)
引用准确性 (Citation Accuracy)
引用彻底性 (Citation Thoroughness)
来源必要性 (Source Necessity)
未引用的来源 (Uncited Sources)

三个流行的引擎量化评比

对三个AI搜索引擎（You.com、BingChat 和 Perplexity）基于自动化评估的量化结果。这些评估使用了之前开发的八个指标，这些指标构成了AI搜索引擎评估（AEE）框架。以下是对量化评估结果的总结：

基于AEE基准的八个指标，对三个答案引擎——You.com、BingChat和Perplexity——进行定量评估：指标报告，用▲表示可接受，●表示边缘，▼表示有问题的性能。a图显示了答案置信度的分布。

基本统计：

每个答案引擎返回的答案中平均引用的来源数量和陈述数量不同。
Perplexity 返回的答案中引用的来源最多，但每个陈述的引用次数较少。

答案文本指标：

一边倒答案：所有答案引擎都频繁（50-80%）生成一边倒的答案，倾向于与辩论问题的提法保持一致，而不是呈现多个视角，其中 Perplexity 表现最差。
过度自信的答案：Perplexity 在辩论问题上表现出最高比例的过度自信答案。
相关声明：所有引擎在答案中包含的相关声明比例相似，大约在75-82%之间。

来源指标：

未引用的来源：You.com 在确保所有列出的来源都被引用方面表现最好，而 BingChat 有较大比例的来源未被引用。
不支持的声明：所有模型生成的答案中都有相当比例的声明未被列出的来源支持。
来源必要性：所有答案引擎在只列出必要的来源以支持答案中的声明方面表现不佳。

引用指标：

引用准确性：所有答案引擎在准确引用支持声明的来源方面都存在困难。
引用彻底性：三个引擎都没有充分引用所有可能的准确引用。

AI搜索引擎评估得分卡：

没有一个AI搜索引擎在大多数指标上表现良好，表明答案引擎在处理幻觉、不支持的声明和引用准确性等关键方面有很大的改进空间。
You.com 在处理语言信心和呈现来源方面表现略好。
Perplexity 由于在生成过度自信的答案和引用准确性方面表现不佳，整体表现最差。
BingChat 的整体表现介于两者之间，尽管它倾向于列出更多的来源，但这并没有总是转化为更广泛的信息覆盖。

信心得分分布：

Perplexity 在所有查询类型中都倾向于使用最自信的语言。
BingChat 和 You.Com 在辩论问题上使用的信心语言较少，表明在有争议的主题上表达不确定性。

https://arxiv.org/pdf/2410.22349Search Engines in an AI Era: The False Promise of Factual and Verifiable Source-Cited Responses

备注：进群，进入大模型技术群

id：baobaogpt，记得备注呦

http://mp.weixin.qq.com/s?__biz=MzIwNDY1NTU5Mg==&mid=2247492936&idx=1&sn=0ed140f7a92e1ad2e4b13562384ebaf5

包包算法笔记

大模型技术和行业认知

最新文章

大模型对齐中的各种loss讲解

微调图像大模型的经验分享

人人都能看懂的RL-PPO理论知识

校招字节开奖，大模型50K*15！准备接了

个人从零预训练1B LLM心路历程

代码大模型OpenCoder技术报告解读

SFT洗数据，有多少细节？

LSTM依然能打！原作者带队最新开源成果吊打Transformer和Mamba

大模型中有哪些形式简单却很巧妙的上分方法？

智谱生成视频升级，告别默片Sora

FlashAttention算法之美：极简推导版

ACL 2024中RAG论文整理和简析

AI搜索的16个局限性和提升建议

图解大模型训练系列：序列并行2，DeepSpeed Ulysses

大模型SFT数据选择方法综述

图解大模型训练系列：序列并行

Perplexity CEO揭秘：不训大模型、关键在于检索、排序、编排

复现 OpenAI o1 的一小步：Steiner 开源模型解析

字节大模型搞推荐，有业务收益了

OpenAI 12月发布最新模型Orion？Altman又辟谣

LLM洗数据：怎么做Continue Pretrain的数据

LLM洗数据：数据或许比算法更重要？大模型剪枝中的校准数据

LLM洗数据：数据去重之Simhash&Minhash分析与实现

小红书用大模型搞推荐

NeurIPS'24｜大模型LoRA超级变体！仅需参数0.4%达微调效率巅峰！

Claude 3.5，学会了用电脑！遥遥领先openAI

Yann LeCun最新演讲：基本上不做LLM了

如何用一个统一的视角，分析RLHF下的各种算法？

终于被CCF A类会议AAAI录用了！！！

万字长文梳理LLM+RLHF的脉络

字节实锤大模型造实习生攻击？这下反而更...

大模型SFT暗藏陷阱？梯度累计有坑

手撕LLM+RLHF+VLM+o1推理，我全都要!!!

Anthropic分享RAG最佳实践：Contextual Retrieval

如何从头训练大语言模型: A simple technical report

Meta视频生成论文解读

写在Ph.D第0年：AI/CV科研菜鸟的进阶之路

KDD Cup 2024 Meta LLMs RAG挑战赛冠军方案开源

DPO的局限性讨论：理论和实践

字节用大模型做推荐。。

今年顶会这情况。。。大家提前做准备吧！

OpenAI o1技术详解3：让模型自我纠错

OpenAI o1 技术详解2：MCTS增强推理（代码级）

红杉专访OpenAI O1团队全文记录

大模型算法岗，Kaggle金牌和CCF A一作哪个更有用？

全是细节｜大模型SFT的100个关键点

也来猜猜 o1 实现方法

多模态大模型技术点总结

OpenAI o1 技术系列1：整体框架，利用Test-Time Scaling Law提升逻辑推理能力

一文讲明白大模型分布式逻辑（从GPU通信原语到Megatron、Deepspeed）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉