LLM2D
TALE: 一种工具增强框架,用于无参考评估大规模语言模型
TALE: A Tool-Augmented Framework for Reference-Free Evaluation of Large Language Models
作者: Sher Badshah, Ali Emami, Hassan Sajjad
发布日期: 4/11/2025
arXiv ID: oai:arXiv.org:2504.07385v1

摘要

arXiv:2504.07385v1 评估类型: cross 摘要: 随着大型语言模型(LLMs)越来越多地集成到现实世界中的自主应用中,依赖静态的先标注参考进行评估在成本、可扩展性和完整性方面提出了显著挑战。我们提出了工具增强的LLM评估(TALE)框架,该框架能够在没有预定ground-truth答案的情况下评估LLM的输出。与传统的将结果与固定参考进行比较或仅仅依赖于LLM作为裁判的度量方法不同,TALE采用一个具有工具访问能力的代理,该代理可以主动检索和合成外部证据。TALE通过迭代生成网络查询、收集信息、总结发现并通过反思改进后续搜索。通过放弃静态参考,TALE与现实世界场景中常见的自由形式问答任务相一致。在多个自由形式问答基准上的实验结果表明,TALE不仅在衡量响应准确性方面优于基于固定参考的标准度量方法,还与人类评估达到了实质性的至接近完美的共识。TALE在无需依赖静态参考的情况下,增强了LLM评估在现实世界动态场景中的可靠性。