摘要
arXiv:2505.08140v1 宣布类型: 新
摘要: 尽管它们在许多任务上取得了巨大的成功,基于变压器的大规模语言模型(LLMs)仍然在要求对输入的大量部分进行复杂推理的任务上遇到困难。我们认为这些失败是由于LLMs内部信息准确流动的能力限制所导致的。为了正式化这一问题,我们引入了有界注意力前缀先验(BAPO)模型,这是一种新的计算框架,用于建模LLMs内部通信机制(即注意力头)的带宽限制。我们展示了几个重要的推理问题,如图的可达性,需要BAPOs具备高通信带宽来解决;我们将这些问题称为BAPO-hard。我们的实验验证了我们的理论预测:GPT-4、Claude和Gemini在BAPO-容易的任务上取得成功,但在相对较小型的BAPO-hard任务上却失败了。BAPOs还揭示了另一种思维链(CoT)的优势:我们证明,使用CoT分解任务可以将任何BAPO-hard问题转换为BAPO-容易的问题。我们的结果为关键LLM失败提供了有原则的解释,并建议了缓解带宽限制的架构和推理方法的方向。