LLM2D

摘要

随着大型语言模型 (LLM) 的不断发展，寻找有效且有意义的评估方法的工作仍在进行中。许多最近的评估使用 LLM 作为评判者来评分其他 LLM 的输出，通常依赖于单个大型模型，如 GPT-4o。然而，使用单个 LLM 评判者容易受到模型内部偏差的影响，许多任务（例如与情商、创意写作和说服力相关的任务）可能过于主观，以至于单个模型无法公平地评判。我们介绍了语言模型委员会 (LMC)，其中一群 LLM 协同合作创建测试、对测试做出回应，并互相评估彼此的回应，以民主的方式产生排名。与之前专注于通过使用一组较小模型来降低成本或偏差的方法不同，我们的工作考察了完全包容的 LLM 评估系统的益处和细微之处。在一个关于情商的详细案例研究中，我们部署了一个由 20 个最新的 LLM 组成的委员会，让他们在对人际冲突的开放式回应中互相排名。我们的结果表明，LMC 生成的排名更具可分离性和鲁棒性，并且通过用户研究，我们发现它们与人类评估的一致性比任何单个 LLM 评判者都要高。然而，使用所有 LLM 进行评判可能成本很高，因此我们使用蒙特卡罗模拟和手工策划的子委员会来研究假设的委员会构成，并讨论增量 LLM 评判者的价值。