LLM2D

摘要

arXiv:2504.00406v1 说明类型：交叉摘要：大规模语言模型展示了令人印象深刻的推理能力，但常常产生不可靠或错误的响应。现有的验证方法通常是针对特定模型或特定领域的，需要大量的计算资源，并且缺乏在多种推理任务中的可扩展性。为了应对这些局限性，我们提出了一种统一的验证代理VerifiAgent，它结合了两个层次的验证：元验证，评估模型响应的完整性和一致性；以及基于工具的自适应验证，其中VerifiAgent自主选择合适的验证工具，依据推理类型，包括数学推理、逻辑推理或常识推理。这种自适应方法确保了在不同验证场景中的效率和稳健性。实验结果显示，在所有推理任务中，VerifiAgent比基线验证方法（例如，演绎验证器、回溯验证器）表现更优。此外，它还可以通过利用验证结果的反馈进一步提高推理准确性。VerifiAgent还可以有效应用于推理缩放，在数学推理领域，即使生成样本较少，也能获得更好的结果和更低的成本。代码可在 https://github.com/Jiuzhouh/VerifiAgent 获得。