LLM2D
大型语言模型作为评价者的认知偏差基准测试
Benchmarking Cognitive Biases in Large Language Models as Evaluators
作者: Ryan Koo, Minhwa Lee, Vipul Raheja, Jong Inn Park, Zae Myung Kim, Dongyeop Kang
发布日期: 9/26/2024
arXiv ID: oai:arXiv.org:2309.17012v3

摘要

大型语言模型是认知上有偏见的法官。大型语言模型 (LLM) 最近被证明可以作为自动评估器,只需简单的提示和上下文学习。在本研究中,我们收集了 15 个不同规模的 LLM,并通过其他 LLM 作为评估器对它们的输出响应进行偏好排序,例如系统 Star 比系统 Square 更好。然后,我们评估了排序输出的质量,引入了大型语言模型作为评估器的认知偏差基准 (CoBBLEr),这是一个基准,用于衡量 LLM 评估输出中的六种不同的认知偏差,例如自我中心偏差,其中模型倾向于在评估中高度排名自己的输出。我们发现,LLM 是有偏见文本质量评估器,在我们的偏差基准中表现出强烈的迹象(所有模型的平均比较中 40%),这在它们的每次评估中都质疑了它们作为评估器的稳健性。此外,我们检查了人类和机器偏好之间的相关性,并将平均排名偏差重叠 (RBO) 分数计算为 49.6%,表明机器偏好与人类不一致。根据我们的发现,LLM 仍然可能无法用于与人类偏好一致的自动标注。我们的项目页面位于:https://minnesotanlp.github.io/cobbler。