LLM2D
NYT-连接:一个让系统1思考者棘手的看似简单的文本分类任务
NYT-Connections: A Deceptively Simple Text Classification Task that Stumps System-1 Thinkers
作者: Angel Yahir Loredo Lopez, Tyler McDonald, Ali Emami
发布日期: 2/13/2025
arXiv ID: oai:arXiv.org:2412.01621v2

摘要

arXiv:2412.01621v2 Announce Type: replace-cross 摘要:大规模语言模型(LLMs)在各种基准测试中展示了令人印象深刻的性能,但它们进行有目的推理的能力仍然存在疑问。我们介绍了来自《纽约时报》连接游戏的358个简单词分类谜题组成的NYT-Connections基准数据集。该基准旨在惩罚快速、直观的“系统1”思考,隔离基本的推理能力。我们在这三个配置中评估了六种近期的LLMs、一个简单的机器学习启发式方法以及人类的表现:单次尝试、没有提示的多次尝试和带有上下文提示的多次尝试。我们的研究发现表现出显著的性能差距:即使是表现最佳的LLMs,如GPT-4,也未能接近人类的表现,差距接近30%。值得注意的是,随着任务难度的增加,如链式推理和自我一致性等高级提示技术显示出减弱的效果。NYT-Connections独特地结合了语言隔离、对直观捷径的抵抗以及定期更新以减少数据泄露,提供了一种评估LLM推理能力的全新工具。