摘要
arXiv:2504.01935v1 宣告类型: 新
摘要: 大型语言模型(LLMs)在推理时通常可以从 verbalized 推理中受益,但这些额外的推理标记解决的任务难度的哪些方面仍不清楚。为了探究这一问题,我们通过确定性有限自动机(DFAs)的形式化框架进行了研究。DFAs 提供了一种通过可测量属性(如运行长度,即所需的推理步骤数量,和状态空间大小,即决策复杂度)来表征任务复杂性的方法。我们首先展示了,在不同任务和不同规模及训练范式的模型中,存在一个最优的推理标记数量,使得产生正确解的概率最大化。然后我们调查了哪些复杂性的属性决定了这一关键长度:我们发现,具有较长相应 DFA 运行时间的任务实例(即,需要更大的潜在状态跟踪需求)与较长的推理长度相关,但令人惊讶的是,DFA 的大小(即状态空间复杂度)并不相关。随后,我们证明了这些发现的含义:能够预测新问题的最佳推理标记数量,并过滤掉非最优长度的答复,可以实现一致的准确性提升。