论文笔记分享,标题:Chain-of-Thought Reasoning without Prompting。 来自google deepmind。最近这2篇矛头有点直戳OAI了~
cot-decoding: LLMs能否在没有cot prompt的情况下有效推理?我们的研究结果表明,只需改变大模型解码过程,就可以从预先训练的LLMs中导出 CoT 推理路径。
在第一步解码时考虑多个候选token可以增加后续解码路径的多样性。这有助于模型探索可能的推理路径,而不是仅仅依赖于最可能的路径。
对于所有的Top-k解码路径,cot-decoding会计算每个路径的置信度评分,并选择置信度最高的路径作为最终答案。 还可以利用置信度分数对答案进行加权,确定答案token置信度综合最多的概率。
如何确定答案token? 很多方式,如果知道答案候选,如ABCD,直接抠就行,也可以扩展模型输出,如添加:所以答案是xxx。还可以根据模型的预测概率,来筛选一致性的token。
评测下来,不仅优于过去的一些策略,而且随着模型尺寸的scaling,仍然有效。最后还可以结合已有的prompt技巧,混合使用效果更佳!