1.21-1|进化搜索策略，提高LLM推理深度；学术搜索智能体，RL+PPO；LLM回答置信度

文摘 2025-01-21 07:20 江苏

大语言模型推理与优化：进化搜索策略，提高LLM推理深度；学术搜索智能体，RL+PPO；LLM回答置信度

Evolving Deeper LLM Thinking

2025-01-17｜Google DeepMind, UCSD, U Alberta|🔺57

http://arxiv.org/abs/2501.09891v1
https://huggingface.co/papers/2501.09891

研究背景与意义

在当前的人工智能研究中，如何提升大型语言模型（LLM）的推理能力是一个重要的课题。传统的推理方法往往依赖于明确的推理步骤和形式化的问题定义，但这在处理复杂的自然语言任务时显得力不从心。本文提出了一种名为“Mind Evolution”的进化搜索策略，旨在通过利用语言模型生成、重组和优化候选答案，以应对自然语言规划任务中的推理挑战。研究的意义在于，它不仅提供了一种新的思路来提升LLM的推理深度，还展示了如何在不依赖于形式化求解器的情况下，利用评估器进行高效的解决方案生成。

研究方法与创新

“Mind Evolution”方法的核心在于结合自由流动的随机探索与大规模的迭代优化。具体而言，研究者们采用了基因算法的思想，通过语言模型生成多样化的候选解决方案，并利用反馈机制进行逐步优化。与现有的推理策略相比，该方法的创新点在于：

进化搜索策略：通过生成多样化的候选解并进行迭代优化，Mind Evolution能够在更广泛的解空间中寻找解决方案。
全局评估机制：与传统的逐步推理不同，该方法仅依赖于全局解决方案评估器，从而简化了推理过程。
适应性强：该方法能够处理未形式化的问题，尤其适合自然语言规划任务。

通过对比实验，Mind Evolution在多个基准测试中表现出色，成功率显著高于传统方法，如Best-of-N和Sequential Revision等。

实验设计与结果分析

在实验设计上，研究者们选择了多个自然语言规划任务，包括“Travel Planner”和“Natural Plan”。通过对比Mind Evolution与其他基线方法的表现，结果显示：

成功率：Mind Evolution在“Travel Planner”任务中达到了95.6%的成功率，而其他方法的成功率普遍较低。
效率：Mind Evolution在计算成本方面也表现优异，生成的候选解数量和API调用次数相对较少，表明其在资源利用上的高效性。
多场景表现：无论是在简单还是复杂的任务背景下，Mind Evolution均展现了良好的适应性和稳定性。

结论与展望

本文的研究表明，Mind Evolution为提升LLM的推理能力提供了一种有效的策略。尽管该方法在多个任务中表现优异，但仍存在一些局限，例如在处理极其复杂的任务时可能需要更多的计算资源。未来的研究可以进一步探索如何优化进化策略的参数设置，以及如何将该方法应用于更广泛的自然语言处理任务中。总之，Mind Evolution不仅为LLM的推理深度提供了新的视角，也为相关领域的研究提供了宝贵的借鉴。

PaSa: An LLM Agent for Comprehensive Academic Paper Search

2025-01-17｜ByteDance, PKU|🔺18

http://arxiv.org/abs/2501.10120v1
https://huggingface.co/papers/2501.10120
https://pasa-agent.ai

研究背景与意义

在现代学术研究中，信息检索的效率直接影响到研究的进展和成果的质量。然而，现有的学术搜索系统（如Google Scholar）在处理复杂的学术查询时，往往无法满足研究者的需求。这种局限性促使研究者花费大量时间进行文献综述，降低了研究效率。因此，开发一种能够自动化、全面且准确地进行学术文献搜索的工具显得尤为重要。本文提出的PaSa（Paper Search Agent）正是为了解决这一问题而设计。

PaSa的设计目标是通过模拟人类研究者的行为，提升学术搜索的准确性和全面性。通过对现有文献检索工具的分析，本文指出了当前系统在处理长尾特定知识、细粒度查询等方面的不足，并阐明了PaSa在优化学术搜索中的潜在价值。

研究方法与创新

PaSa的核心创新在于其采用了两种LLM（大型语言模型）代理：Crawler和Selector。Crawler负责根据用户查询自动收集相关文献，而Selector则对收集到的文献进行筛选，以确保其符合用户的需求。这一设计不仅提高了文献检索的效率，还增强了结果的相关性。

在技术实现上，PaSa结合了强化学习（RL）与Proximal Policy Optimization（PPO）算法，针对文献搜索任务的独特挑战进行了优化。具体而言，PaSa通过设计新的奖励机制来应对稀疏奖励和长轨迹问题，从而提升了模型的学习效率。此外，PaSa还开发了两个高质量的数据集（AutoScholarQuery和RealScholarQuery），用于训练和评估其性能。

实验设计与结果分析

为评估PaSa的性能，研究者在合成数据集AutoScholarQuery和真实数据集RealScholarQuery上进行了实验。实验结果表明，PaSa在多个指标上显著优于现有的基线模型，如Google Scholar和ChatGPT等。具体而言，PaSa在Recall@20和Recall@50的表现上分别提高了37.78%和39.90%。这些结果不仅验证了PaSa在学术搜索中的有效性，也表明其在真实场景中的应用潜力。

实验过程中还对Crawler和Selector的性能进行了详细分析，结果显示，Crawler的回调率在PaSa-7b模型中达到了79.31%，而Selector的F1得分也达到了85%。这表明，PaSa的设计有效地提升了文献检索的准确性和可靠性。

结论与展望

本文介绍了PaSa，一个旨在提高学术文献搜索效率和准确性的先进工具。通过结合强化学习和多种创新技术，PaSa在复杂学术查询的处理上展现了优越的性能。未来，研究者计划进一步优化PaSa的算法，并扩展其应用范围，以满足更广泛的学术需求。此外，随着数据集的不断丰富和算法的迭代，PaSa有望在学术研究中发挥更大的作用，帮助研究者更高效地获取和利用知识。

Multiple Choice Questions: Reasoning Makes Large Language Models (LLMs) More Self-Confident Even When They Are Wrong

2025-01-16｜NUAA, UPM, UC3M, Somos NLP|🔺12

http://arxiv.org/abs/2501.09775v1
https://huggingface.co/papers/2501.09775

研究背景与意义

在当今的人工智能领域，评估大型语言模型（LLMs）的能力成为了一个重要的研究方向。传统的评估方法往往依赖于多项选择题（MCQ）测试，这种方法虽然可以在大规模上进行知识测试，但却无法有效反映模型在回答问题时的自信程度。本文的研究旨在探讨当LLM在回答问题时，是否会因为先提供推理过程而增强其自信心。通过对比直接回答与提供推理的两种方式，研究发现LLM在提供推理时更具自信，无论其最终选择的答案是否正确。这一发现不仅对理解LLM的工作机制有重要意义，也为后续的评估方法提供了新的视角。

研究方法与创新

本文采用了两种不同的提示方式来测试LLM的自信心：一种是直接回答问题，另一种是先提供推理过程再给出答案。通过对比这两种方法在多个模型上的表现，研究发现，LLM在进行推理后，其对选择答案的自信度显著提高。这种现象在所有测试的模型中均有体现，且推理过程的影响在需要更多逻辑推理的问题上更加明显。此外，研究还探讨了这种自信心的变化是否与答案的正确性相关，结果显示，即使在错误答案的情况下，推理过程也能提高模型的自信度，这与人类在回答时的行为模式相似。

实验设计与结果分析

在实验设计中，研究者使用了Massive Multitask Language Understanding（MMLU）基准，涵盖了57个类别和超过15,000个问题。通过对比不同提示下的模型表现，研究者发现，当LLM在推理后选择答案时，其对所选答案的自信度普遍提高。具体而言，错误答案的自信度提升幅度甚至超过了正确答案的自信度。这一结果表明，推理过程不仅影响了模型的选择，还可能导致模型在某些情况下产生更高的错误自信。这与人类在面对复杂问题时的反应模式具有一定的相似性，提示我们在设计评估工具时需要考虑这一点。

结论与展望

本文的研究表明，LLM在回答多项选择题时，其自信心受到推理过程的显著影响。无论答案的正确性如何，推理过程都能提高模型的自信度。这一发现为评估LLM的能力提供了新的思路，尤其是在考虑自信度作为评估指标时。未来的研究可以进一步探讨不同类型问题对自信心的影响，以及如何优化LLM的推理过程以提高其在复杂任务中的表现。此外，理解LLM的自信机制也可能为人类认知科学提供新的启示，值得深入研究。

AI研究前瞻

欢迎来到AI研究前瞻 - 您的人工智能研究前沿指南！我们致力于为您提供最新、最前沿的AI研究论文解读和分析，并以通俗易懂的方式呈现其核心思想和潜在影响。一起探索AI的无限可能,共同见证人工智能改变世界的每一步!

1.29-2|通用的无模型强化学习，MR.Q，状态-动作嵌入学习

1.29-3|时间混合模块代替自注意力，RWKV-7注意力，注意力蒸馏；参数 vs FLOPs，MOE模型的最优稀疏度缩放定律

1.29-4|iFormer，结合CNN和ViTs轻量化特征提取网络；VLMs视觉偏见，人类与模型感知对齐；免引导的视觉生成推理

1.29-5|issue测试基准，大模型代码编辑效率，测试时间效率

1.28-1|高挑战性人类水平的多模态测试基准；链式检索增强生成，迭代检索链；MLLM基准冗余，基准设计；LLM批判能力封闭基准

1.28-2|可重光照和可驱动的全身头像；遥感图像像素级感知；提高VLLM三维感知理解能力；基于长视频的VTON

1.28-3|一体化自适应图像恢复框架，去噪，去模糊和去雨；去噪作为适应的图像恢复框架

1.28-4|医疗记录问答，隐私保护，语义检索

1.28-5|强化学习+Transform，上下文中进行强化学习，通用问题求解器

1.25-1|多智能体长距离路径规划，共享递归记忆

1.25-2|高效注意力差异化QKV键值压缩；过程与结果二元反馈的推理奖励模型

1.25-3|人类反馈偏好对齐的视频生成；时间偏好优化，提升时间理解能力；多模态视频理解；个人身份保留的个性化视频生成

1.25-4|COT用于图像生成；文生图超全面评估；角色一致的图片生成

1.25-5|评估VLLM从视频中获取知识的能力；扩散模型进行视频物体对象移除

1.25-6|药物发现与幻觉：幻觉提高了LLM药物发现能力，SMILES字符串

1.24-1|DeepSeek-R1技术报告，使用强化学习进行自我演进；Kimi k1.5技术报告；长度协调微调，长推理链优化

1.24-2|多模态与图像视频理解：VideoLLaMA 3

1.24-3|虚拟3D空间端到端的影视自动化，多智能体框架；自动化对话性能评估框架，多智能体进行模型性能评估

1.24-4|测试时偏好优化，通过文本反馈调整模型输出；推理时候选答案选择，成对奖励模型

1.24-5|MOE模型自主路由选择，自动专家模型

1.23-1|通过反思轨迹修正来合成训练数据进行自训练；GUI智能体框架；手机智能体框架，持续学习；环境交互学习智能体

1.23-2|多概念个性化图片生成；扩散模型进行高质量3D资产合成；长视频单目深度估计一致性；T2V通过结构化噪声控制运动

1.23-3|MOE模型训练，全局Batch的负载均衡损失；专家级多学科视频理解基准；多模态奖励模型

1.23-4|o系列推理语言模型蓝图，快速原型设计与开发

1.22-1|生成式游戏引擎，场景泛化，动作可控性，Minecraft数据集

1.22-2|知识学习与视频生成：从未标注视频中学习围棋与机器人控制，LDM模型学习

1.22-3|版权保护与水印技术：融合LORA层的白盒水印，版权保护

1.21-1|进化搜索策略，提高LLM推理深度；学术搜索智能体，RL+PPO；LLM回答置信度

1.21-2|2D交互式卡通角色，文本生成live2D；人像图片动画化，提升背景动态细节；文本驱动的4D可编辑头像

1.21-3|阿拉伯语MLLM医疗能力研究，跨语言模型能力迁移

1.21-4|高保真语音超分统一框架，GAN与Transformer-CNN生成器结合；复杂功能调用评估基准

1.18-1|扩展推理时间提升性能，噪声搜索；扩展与反思写作框架，提高内容深度；大模型强化推理综述

1.18-2|基于Transformer的视觉Tokenizer；高保真的3D资产，模型与纹理生成；多主体个性化T2I

1.18-3|提高医疗问询信息获取质量，医患互动策略；无污染的多语言代码评估基准

1.18-4|高效频域动作Tokenization，减少连续动作相关性；基于反思模拟的强化学习，高层级价值观对齐

1.18-5|扩散模型进行重打光；T2V物理规律学习和理解能力研究，通过视频学习物理规律

1.17-1|多模态文档检索，文档布局分析；MLLM做艺术美学系统评估；通用符号音乐生成框架

1.17-2|无边界4D城市场景生成；视频生成跨层信息整合，提高时间，空间一致性；无调参的长视频生成，跨帧注意力主体对齐

1.17-3|参数倒置图像金字塔网络，多层信息交互的视觉感知；跨模态匹配；统一视觉信息匹配框架

1.17-4|开放数据集的最佳实践；隐私推断，可信模型隐私环境

1.17-5|多模态传感，异质对齐，机器人操作

1.16-1|MiniMax-01，4M超长上下文，性能达到先进水平，开源多模态大模型，Lightning 注意力

1.16-2|对抗性扩散后训练，单步视频生成；视频区域级理解，潜在区域标记；开放数据训练高性能文生图；SVD进行图片交互式编辑

1.16-3|文生图填充token分析；简单高效的多实例生成；大模型表示和生成概念，特征解释，可解释性分析

1.16-4|高效卡通线稿上色；使用大模型进行单细胞分析，RNA序列理解；LLM扑克游戏推理与策略评测基准

1.16-5|幻觉检测基准，幻觉错误分类与自动验证

1.15-1|数学推理过程奖励数据合成方法；张量乘积注意力；自适应大型语言模型，动态推理；峰感知梯度裁剪；参考模型进行数据选择

1.15-2|长叙事视频导演和生成；多模态无缝语音交互；生物医学多模态数据合成；高质量3D对象中心数据集

1.15-4|多层级网页遍历检索问答基准，网站浏览智能体，检索增强生成

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉