点击下方卡片,关注“CVer”公众号
点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
AI/CV重磅干货,第一时间送达
添加微信号:CVer2233,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
添加微信号:CVer2233,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
论文链接:https://arxiv.org/abs/2410.05695
代码地址:https://github.com/LightChen233/reasoning-boundary
完全可行的推理边界:研究者定义准确率大于 90% 的部分是完全可行的推理边界 (CFRB=),这意味着 LLM 可以有效地掌握这部分的表现。
完全不可行的推理边界:研究者认为准确率小于 10% 的部分是完全不可行的推理边界 (CIRB=),这意味着模型永远无法有效掌握这部分的性能。
部分可行推理边界:研究者将除 CFRB 和 CIRB 之外的其余部分中的 RB 定义为部分可行推理边界 (PFRB=),这需要模型重复思考或者更清晰的信息来解决问题。
模型设置:研究者们采用了 GPT-3.5-Turbo 作为主要模型,实验还涵盖了多任务场景,包括数学推理、多跳问答和多语言推理等领域,以确保推理边界的全面评估。
基准设置:为了更好地评估 LLMs 的推理能力,作者引入了一个新的数据集 ——BigGSM。这个数据集不仅具有较高的计算复杂性,还包含更长的推理链,能够更好地挑战模型的推理上限。
复杂多项式计算的推理边界:可视为 ①计算步骤规划 与 ②数学运算 两个推理边界的结合。如图 3 (a) 所示,实验结果显示了三个具有明显边界的推理边界划分区域。 复杂小学数学推理的推理边界:可理解为 ①自然语言步骤规划 与 ②数学运算 的结合,图 3 (b) 中同样展示了三个清晰的推理边界划分区域。 多跳问答的推理边界:可被视作 ①多跳规划 与 ②实体推理 的结合。正如图 3 (c) 所示,三个推理边界划分的有效区域同样可见。
完全可行推理边界-->完全掌握:如图 4 (a, b) 所示,在这一边界下,模型即使在没有示例、无需 self-consistency 的情况下也能够高效完成任务。
部分可行推理边界-->不完全掌握:在这一推理边界下,如图 4 (b) 所示,模型对任务的掌握程度有限,需要通过多次 Self-consistency 来增强信心,从而提高准确率。
完全不可行推理边界-->完全不掌握:在这种边界下,如图 4 (b) 所示,模型的推理表现极其有限,即便采用 Self-consistency,模型的准确率仍难以得到提升。
大模型能够自己意识到自己的推理边界:研究还发现,如图 4 (c) 所示,当让模型自行生成 CoT 示例时,模型更倾向于生成符合其推理边界的样本,特别是在完全可行推理边界范围内,而很少生成其完全无法掌握的样本。这表明模型对推理边界具有一定的自我感知能力,能够根据自身能力选择合适的任务进行推理。
Complex CoT 在推理步骤与性能之间的平衡
单次计算负荷缓解:研究表明,通过增加推理步骤,可以缓解单次计算的负荷,从而提升模型的计算边界,这有助于提高整体的推理能力。
规划难度增加:然而,推理步骤的过度增加可能带来负面影响:原问题在准确率较高的边界上,经过 Complex CoT,可能落到准确率较低的边界上,其中。这意味着过多的推理步骤可能导致组合推理准确度的下降。
在规划与计算负荷之间存在一个平衡:如图 6 所示,随着推理步骤的增加,模型性能在初期显著提高,但当步骤数超过模型的最优推理能力时,性能开始下降。这表明,Complex CoT 在推理步骤数量与计算负荷之间存在一个最佳平衡点。超出这一点,计算负荷的增加会对模型的整体表现产生负面影响。
Least-to-Most 的分步优化策略
最短可接受推理路径提示(MARP)
最小化推理路径提示:为了减轻与规划相关的认知负担,通过该提示让模型尽可能简洁地回答问题,确保提供简短、清晰和直接的推理路径。
可接受推理路径提示:为了更有效地利用推理边界的上限,通过该提示要求模型每一个推理步骤的复杂性在可接受的范围内。
推理边界与模型准确率的正相关性:研究者通过对 25 个不同模型的推理边界表现进行分析,发现推理边界与数学任务中的准确率呈现出正相关关系。
数学模型与通用模型在推理边界 - 准确率分布上的差异:通过数学数据微调的模型,推理边界 - 准确率分布虽然呈现出正相关,但与通用 LLM 存在显著差异。这可以为未来区分模型是否进行了数学专项训练提供了一个潜在的指标。
开源模型在完全可行推理边界上的局限性:开源模型在完全可行推理边界(CFRB)上的表现与闭源模型存在显著差异。几乎所有开源模型的 CFRB 值均为 0,这表明开源模型在高级推理任务上的不足,表明其在未来优化中的潜力。
多语言推理:通过将多语言能力、数学计算与推理规划相结合,实验结果表明,这些能力的正交组合后,推理边界依然保持了三类不同的推理边界模式,进一步证实了此方法的普适性和稳定性。
医疗推理:类似地,在医疗领域,研究通过将医疗实体推理与多跳推理规划相结合,验证了推理边界在正交组合后仍然保持一致,说明该推理策略同样适用于医疗推理任务。
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!
ECCV 2024 论文和代码下载
在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集
CVPR 2024 论文和代码下载
在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集
Mamba、多模态和扩散模型交流群成立
扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer2233,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看