摘要
arXiv:2504.09597v3 宣布类型: 替换
摘要:大型语言模型(LLMs)在众多任务中展现出了卓越的能力,然而对于它们背后机制及缩放定律、幻觉及类似行为等现象的原理性解释仍付诸阙如。在本文中,我们重新审视了基于柯尔莫哥洛夫复杂性和香农信息理论的经典压缩与预测之间的关系,以此提供更深入的语言模型行为见解。通过利用柯尔莫哥洛夫结构函数,并将语言模型的压缩视为两部分编码过程,我们提供了关于语言模型在不断增加的模型和数据规模下如何获取和存储信息的详细视图——从普遍的句法模式到逐渐稀有的知识元素。受这一理论视角和基于 Heap 和 Zipf 定律启发的自然假设的驱动,我们提出了一种简化但具有代表性的分层数据生成框架,称为句法-知识模型。在贝叶斯框架下,我们展示了在该模型中,预测和压缩自然导致语言模型的多样的学习和缩放行为。特别地,我们的理论分析为数据和模型的缩放定律、训练和微调过程中知识获取的动态以及语言模型中的事实性知识幻觉提供了直观且原理性的解释。实验结果验证了我们的理论预测。