LLM2D

摘要

arXiv:2412.01621v2 Announce Type: replace-cross 摘要：大规模语言模型（LLMs）在各种基准测试中展示了令人印象深刻的性能，但它们进行有目的推理的能力仍然存在疑问。我们介绍了来自《纽约时报》连接游戏的358个简单词分类谜题组成的NYT-Connections基准数据集。该基准旨在惩罚快速、直观的“系统1”思考，隔离基本的推理能力。我们在这三个配置中评估了六种近期的LLMs、一个简单的机器学习启发式方法以及人类的表现：单次尝试、没有提示的多次尝试和带有上下文提示的多次尝试。我们的研究发现表现出显著的性能差距：即使是表现最佳的LLMs，如GPT-4，也未能接近人类的表现，差距接近30%。值得注意的是，随着任务难度的增加，如链式推理和自我一致性等高级提示技术显示出减弱的效果。NYT-Connections独特地结合了语言隔离、对直观捷径的抵抗以及定期更新以减少数据泄露，提供了一种评估LLM推理能力的全新工具。