摘要
arXiv:2502.06655v2 宣布类型: 替换
摘要:基准污染已成为LLM评估社区中的一个重大关注点。此前的Agent-as-an-Evaluator方法通过让代理参与问题生成来解决这一问题,尽管这些方法取得了成功,但Agent-as-an-Evaluator方法中的偏见仍然很大程度上未被探索。在本文中,我们提出了一种评估偏见的理论公式,为设计无偏评估协议提供了宝贵的见解。此外,我们通过精心设计的探针任务,在最小的Agent-as-an-Evaluator设置中识别出两种类型的偏见。为解决这些问题,我们提出了无偏评估者,这是一个能提供更全面、无偏且可解释的LLM评估协议的方案。广泛的实验揭示了当前LLM在改进方面有很大的空间。此外,我们还证明了无偏评估者不仅提供了基准污染的有力证据,还能提供可解释的评估结果。