LLM2D

摘要

arXiv:2406.02804v2 宣布类型: 修改摘要: 我们介绍了ACCORD框架和基准套件，通过可控的多跳反事实来分离常识接地和大型语言模型（LLMs）的推理能力。ACCORD引入了形式化的常识推理元素，以明确控制和量化超出典型1到2跳的推理复杂性。独特的是，ACCORD可以自动生成任意推理复杂性的基准，因此它能够随着未来LLM的改进而扩展。基准测试最新的LLM（包括GPT-4o（2024-05-13）、Llama-3-70B-Instruct和Mixtral-8x22B-Instruct-v0.1）显示，在只有适度扩展的情况下，性能下降到随机猜测水平，留下了显著的改进空间。我们发布了一个在本工作中测试的基准套件的排行榜，以及用于自动生成更复杂基准的代码。