LLM2D

摘要

arXiv:2406.11044v2 宣告类型: 替换-交叉摘要：大型语言模型（LLMs）正在迅速发展并影响各种领域，这需要开发有效的评估和比较其性能的方法。目前大多数性能评估方法要么基于固定、领域特定的问题，缺乏许多实际应用所需的高度灵活性，要么依赖于人类输入，使其无法扩展。为了解决这些问题，我们提出了一种基于LLM之间辩论的自动化基准测试框架，由另一个LLM进行评判。这种方法不仅评估领域知识，还评估诸如论辩推理和不一致识别等技能。我们使用辩论框架对各种最先进的LLM进行了性能评估，并实现了与基于人类输入的流行排名高度一致的排名，从而消除了昂贵的人类外包的需要。