LLM2D
通过辩论评估大型语言模型的性能
Evaluating the Performance of Large Language Models via Debates
作者: Behrad Moniri, Hamed Hassani, Edgar Dobriban
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2406.11044v2

摘要

arXiv:2406.11044v2 宣告类型: 替换-交叉 摘要:大型语言模型(LLMs)正在迅速发展并影响各种领域,这需要开发有效的评估和比较其性能的方法。目前大多数性能评估方法要么基于固定、领域特定的问题,缺乏许多实际应用所需的高度灵活性,要么依赖于人类输入,使其无法扩展。为了解决这些问题,我们提出了一种基于LLM之间辩论的自动化基准测试框架,由另一个LLM进行评判。这种方法不仅评估领域知识,还评估诸如论辩推理和不一致识别等技能。我们使用辩论框架对各种最先进的LLM进行了性能评估,并实现了与基于人类输入的流行排名高度一致的排名,从而消除了昂贵的人类外包的需要。