摘要
arXiv:2504.08312v1 类型:交叉学科
摘要:排序是一项对人类智能来说既繁琐又简单的任务,可以比较容易地通过算法解决。然而,对于大型语言模型(LLMs),这项任务出人意料地困难,因为排序的一些属性是已知的LLM弱点之一:忠于输入数据、值之间的逻辑比较以及严格区分语法(用于排序)和语义(通常通过嵌入学习)。在本文中,我们描述了一种新的SortBench基准测试,适用于LLMs,该基准测试具有不同的难度,且可以容易地根据难度进行扩展。我们将这一基准测试应用于七种最先进的LLMs,包括当前的测试时推理模型。结果显示,虽然o3-mini模型在一般排序上表现出色,但在字符串定义混杂了语法和语义方面时,即使是这种模型也会被误导,例如,通过要求对以单词形式写的数字进行排序。此外,所有模型在处理长列表的忠实性方面存在困难,即它们会遗漏项目并添加新的项目。我们的结果还表明,测试时推理有过度思考问题的倾向,这导致性能下降。最后,没有测试时推理的模型,如GPT-4o,其表现并不比推理模型差多少。