LLM2D
ACCORD: 关闭常识可度量性缺口
ACCORD: Closing the Commonsense Measurability Gap
作者: Fran\c{c}ois Roewer-Despr\'es, Jinyue Feng, Zining Zhu, Frank Rudzicz
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2406.02804v2

摘要

arXiv:2406.02804v2 宣布类型: 修改 摘要: 我们介绍了ACCORD框架和基准套件,通过可控的多跳反事实来分离常识接地和大型语言模型(LLMs)的推理能力。ACCORD引入了形式化的常识推理元素,以明确控制和量化超出典型1到2跳的推理复杂性。独特的是,ACCORD可以自动生成任意推理复杂性的基准,因此它能够随着未来LLM的改进而扩展。基准测试最新的LLM(包括GPT-4o(2024-05-13)、Llama-3-70B-Instruct和Mixtral-8x22B-Instruct-v0.1)显示,在只有适度扩展的情况下,性能下降到随机猜测水平,留下了显著的改进空间。我们发布了一个在本工作中测试的基准套件的排行榜,以及用于自动生成更复杂基准的代码。