LLM2D

摘要

大型语言模型是认知上有偏见的法官。大型语言模型 (LLM) 最近被证明可以作为自动评估器，只需简单的提示和上下文学习。在本研究中，我们收集了 15 个不同规模的 LLM，并通过其他 LLM 作为评估器对它们的输出响应进行偏好排序，例如系统 Star 比系统 Square 更好。然后，我们评估了排序输出的质量，引入了大型语言模型作为评估器的认知偏差基准 (CoBBLEr)，这是一个基准，用于衡量 LLM 评估输出中的六种不同的认知偏差，例如自我中心偏差，其中模型倾向于在评估中高度排名自己的输出。我们发现，LLM 是有偏见文本质量评估器，在我们的偏差基准中表现出强烈的迹象（所有模型的平均比较中 40%），这在它们的每次评估中都质疑了它们作为评估器的稳健性。此外，我们检查了人类和机器偏好之间的相关性，并将平均排名偏差重叠 (RBO) 分数计算为 49.6%，表明机器偏好与人类不一致。根据我们的发现，LLM 仍然可能无法用于与人类偏好一致的自动标注。我们的项目页面位于：https://minnesotanlp.github.io/cobbler。