摘要
arXiv:2406.02804v2 宣布类型: 修改
摘要: 我们介绍了ACCORD框架和基准套件,通过可控的多跳反事实来分离常识接地和大型语言模型(LLMs)的推理能力。ACCORD引入了形式化的常识推理元素,以明确控制和量化超出典型1到2跳的推理复杂性。独特的是,ACCORD可以自动生成任意推理复杂性的基准,因此它能够随着未来LLM的改进而扩展。基准测试最新的LLM(包括GPT-4o(2024-05-13)、Llama-3-70B-Instruct和Mixtral-8x22B-Instruct-v0.1)显示,在只有适度扩展的情况下,性能下降到随机猜测水平,留下了显著的改进空间。我们发布了一个在本工作中测试的基准套件的排行榜,以及用于自动生成更复杂基准的代码。