LLM2D

摘要

arXiv:2502.06233v1 交叉类型论文摘要：自我一致性解码通过采样多种推理路径并选择出现频率最高的答案，从而增强了语言模型在推理任务中的表现。然而，这种方法计算成本较高，因为需要采样许多这些（冗长的）路径，以增加正确答案作为最频繁出现的答案的机会。为了解决这个问题，我们引入了可信度支持的自我一致性（CISC）。CISC 基于模型直接获得的信任度分数进行加权多数投票。通过优先考虑高信任度路径，它可以以显著较小的样本量识别出正确答案。在对九个模型和四个数据集进行测试时，CISC 在几乎所有配置下均优于自我一致性，平均将所需推理路径的数量减少了超过40%。此外，我们展示了标准评估方法是不善于预测区分相同问题的正确和错误答案的成功程度的，因此引入了问题内部信任度评估的概念。实际上，最校准的信任度方法对于CISC来说效果最差。最后，除了这些实际意义之外，我们的结果和分析显示语言模型可以有效地评估其自身输出的正确性，这为这一话题正在进行的辩论做出了贡献。