LLM2D

摘要

arXiv:2504.07385v1 评估类型: cross 摘要: 随着大型语言模型（LLMs）越来越多地集成到现实世界中的自主应用中，依赖静态的先标注参考进行评估在成本、可扩展性和完整性方面提出了显著挑战。我们提出了工具增强的LLM评估（TALE）框架，该框架能够在没有预定ground-truth答案的情况下评估LLM的输出。与传统的将结果与固定参考进行比较或仅仅依赖于LLM作为裁判的度量方法不同，TALE采用一个具有工具访问能力的代理，该代理可以主动检索和合成外部证据。TALE通过迭代生成网络查询、收集信息、总结发现并通过反思改进后续搜索。通过放弃静态参考，TALE与现实世界场景中常见的自由形式问答任务相一致。在多个自由形式问答基准上的实验结果表明，TALE不仅在衡量响应准确性方面优于基于固定参考的标准度量方法，还与人类评估达到了实质性的至接近完美的共识。TALE在无需依赖静态参考的情况下，增强了LLM评估在现实世界动态场景中的可靠性。