LLM2D

摘要

arXiv:2504.08312v1 类型：交叉学科摘要：排序是一项对人类智能来说既繁琐又简单的任务，可以比较容易地通过算法解决。然而，对于大型语言模型（LLMs），这项任务出人意料地困难，因为排序的一些属性是已知的LLM弱点之一：忠于输入数据、值之间的逻辑比较以及严格区分语法（用于排序）和语义（通常通过嵌入学习）。在本文中，我们描述了一种新的SortBench基准测试，适用于LLMs，该基准测试具有不同的难度，且可以容易地根据难度进行扩展。我们将这一基准测试应用于七种最先进的LLMs，包括当前的测试时推理模型。结果显示，虽然o3-mini模型在一般排序上表现出色，但在字符串定义混杂了语法和语义方面时，即使是这种模型也会被误导，例如，通过要求对以单词形式写的数字进行排序。此外，所有模型在处理长列表的忠实性方面存在困难，即它们会遗漏项目并添加新的项目。我们的结果还表明，测试时推理有过度思考问题的倾向，这导致性能下降。最后，没有测试时推理的模型，如GPT-4o，其表现并不比推理模型差多少。