摘要
arXiv:2412.01621v2 Announce Type: replace-cross
摘要:大规模语言模型(LLMs)在各种基准测试中展示了令人印象深刻的性能,但它们进行有目的推理的能力仍然存在疑问。我们介绍了来自《纽约时报》连接游戏的358个简单词分类谜题组成的NYT-Connections基准数据集。该基准旨在惩罚快速、直观的“系统1”思考,隔离基本的推理能力。我们在这三个配置中评估了六种近期的LLMs、一个简单的机器学习启发式方法以及人类的表现:单次尝试、没有提示的多次尝试和带有上下文提示的多次尝试。我们的研究发现表现出显著的性能差距:即使是表现最佳的LLMs,如GPT-4,也未能接近人类的表现,差距接近30%。值得注意的是,随着任务难度的增加,如链式推理和自我一致性等高级提示技术显示出减弱的效果。NYT-Connections独特地结合了语言隔离、对直观捷径的抵抗以及定期更新以减少数据泄露,提供了一种评估LLM推理能力的全新工具。