摘要
arXiv:2406.08598v3 宣布类型: replace-cross
摘要:随着大型语言模型(LLMs)不断进化,评估它们仍然是一个持续的挑战。许多最近的评估使用LLMs作为评判者来评估其他LLMs的输出,通常依赖于一个大型模型,如GPT-4o。然而,使用单个LLM作为评判者容易产生模型内部的偏差,许多任务——如情感智能、创作写作和说服力——可能因单个模型而无法公平评判。我们引入了语言模型委员会(LMC),其中一组LLMs协作制定测试、回应这些问题并通过民主方式评估彼此的回应。与之前侧重于通过使用小模型面板降低成本或减少偏差的方法不同,我们的工作探讨了一个完整的包容性LLM评估系统的益处和细微之处。在一项关于情感智能的详细案例研究中,我们部署了一个由20个近期LLM组成的委员会,以公开回应人际冲突的方式相互评分。我们的结果显示,LMC产生的排名更为分离且更为稳健,并通过一项用户研究,我们展示了它们比任何单个LLM的评判更符合人类的评估。然而,使用所有LLM评判可能会产生成本问题,因此我们使用蒙特卡洛模拟和手工精挑细选的小委员会来研究假设的委员会组成,并讨论增量LLM评判的价值。