LLM2D

摘要

arXiv:2502.11959v1 通告类型: 新增摘要: 声明验证是指确定证据是否支持或反驳某一声明的任务。在自我改进方法中，生成推理链并选择导致正确结果的链进行训练已经成功应用于像数学问题解决这样的任务。然而，在声明验证中，这种方法遇到了困难。低质量的推理链可能会错误地匹配二元真伪标签，将错误的推理引入自我改进过程，最终降低性能。为了解决这一问题，我们提出了一种名为STRIVE的结构化推理方法：结构化推理用于自我改善验证。我们的方法引入了声明分解、实体分析和证据接地验证的结构化推理设计。这些组件提高了推理质量，减少了错误，并为自我改进提供了额外的监督信号。STRIVE首先通过在一个小数目标注示例上的微调基础模型来学习结构化推理设计，从而进行预热阶段。然后，它应用于生成所有训练示例的推理链，仅选择那些正确且结构上健全的链用于后续的自我改进训练。我们展示了STRIVE在基准模型上的显著改进，与基础模型相比提高了31.4%的性能，与Chain of Thought相比提高了20.7%，突显了其效果。