LLM2D

摘要

arXiv:2502.06655v2 宣布类型: 替换摘要：基准污染已成为LLM评估社区中的一个重大关注点。此前的Agent-as-an-Evaluator方法通过让代理参与问题生成来解决这一问题，尽管这些方法取得了成功，但Agent-as-an-Evaluator方法中的偏见仍然很大程度上未被探索。在本文中，我们提出了一种评估偏见的理论公式，为设计无偏评估协议提供了宝贵的见解。此外，我们通过精心设计的探针任务，在最小的Agent-as-an-Evaluator设置中识别出两种类型的偏见。为解决这些问题，我们提出了无偏评估者，这是一个能提供更全面、无偏且可解释的LLM评估协议的方案。广泛的实验揭示了当前LLM在改进方面有很大的空间。此外，我们还证明了无偏评估者不仅提供了基准污染的有力证据，还能提供可解释的评估结果。