LLM2D

摘要

arXiv:2504.01935v1 宣告类型: 新摘要: 大型语言模型（LLMs）在推理时通常可以从 verbalized 推理中受益，但这些额外的推理标记解决的任务难度的哪些方面仍不清楚。为了探究这一问题，我们通过确定性有限自动机（DFAs）的形式化框架进行了研究。DFAs 提供了一种通过可测量属性（如运行长度，即所需的推理步骤数量，和状态空间大小，即决策复杂度）来表征任务复杂性的方法。我们首先展示了，在不同任务和不同规模及训练范式的模型中，存在一个最优的推理标记数量，使得产生正确解的概率最大化。然后我们调查了哪些复杂性的属性决定了这一关键长度：我们发现，具有较长相应 DFA 运行时间的任务实例（即，需要更大的潜在状态跟踪需求）与较长的推理长度相关，但令人惊讶的是，DFA 的大小（即状态空间复杂度）并不相关。随后，我们证明了这些发现的含义：能够预测新问题的最佳推理标记数量，并过滤掉非最优长度的答复，可以实现一致的准确性提升。