LLM2D

摘要

arXiv:2411.02400v2 宣告类型: replace-cross 摘要：事实核查流水线越来越多地采用分解-验证范式，其中文本被分解成较小的断言进行个体验证，并随后结合以做出真伪决定。尽管在这些流水线中广泛采用了分解，但其对最终事实核查性能的影响仍鲜有研究。一些研究报道了分解带来的改进，而其他研究则观察到性能下降，这表明分解的影响是不一致的。到目前为止，还没有进行过全面的分析来了解这种变异性。为了解决这一缺口，我们进行了一项深入分析，明确地探讨了分解对下游验证性能的影响。通过错误案例检查和实验，我们介绍了分解错误的分类，并揭示了准确性增益与分解过程中引入的噪声之间的权衡。我们的分析为理解当前系统不稳定性的原因提供了新的见解，并为未来旨在改进断言分解的研究提供了指导。