LLM2D
VerifiAgent:语言模型推理中的统一验证代理
VerifiAgent: a Unified Verification Agent in Language Model Reasoning
作者: Jiuzhou Han, Wray Buntine, Ehsan Shareghi
发布日期: 4/2/2025
arXiv ID: oai:arXiv.org:2504.00406v1

摘要

arXiv:2504.00406v1 说明类型:交叉 摘要:大规模语言模型展示了令人印象深刻的推理能力,但常常产生不可靠或错误的响应。现有的验证方法通常是针对特定模型或特定领域的,需要大量的计算资源,并且缺乏在多种推理任务中的可扩展性。为了应对这些局限性,我们提出了一种统一的验证代理VerifiAgent,它结合了两个层次的验证:元验证,评估模型响应的完整性和一致性;以及基于工具的自适应验证,其中VerifiAgent自主选择合适的验证工具,依据推理类型,包括数学推理、逻辑推理或常识推理。这种自适应方法确保了在不同验证场景中的效率和稳健性。实验结果显示,在所有推理任务中,VerifiAgent比基线验证方法(例如,演绎验证器、回溯验证器)表现更优。此外,它还可以通过利用验证结果的反馈进一步提高推理准确性。VerifiAgent还可以有效应用于推理缩放,在数学推理领域,即使生成样本较少,也能获得更好的结果和更低的成本。代码可在 https://github.com/Jiuzhouh/VerifiAgent 获得。