摘要
arXiv:2504.09597v4 宣告类型: 更换
摘要: 大型语言模型(LLMs)在众多任务中展现了卓越的能力,然而它们内部机制及其背后的诸多现象(如缩放定律、幻觉及相关行为)的原理性解释仍然难以捉摸。在本文中,我们回溯了压缩与预测之间经典的科莫多夫复杂性和香农信息理论关系,以提供对LLM行为更深刻的见解。通过利用科莫多夫结构函数,并将LLM压缩视为两部分编码过程,我们提供了关于LLMs如何在不断增加的模型和数据规模中获取和存储信息的详细观点——从普遍的句法规则到逐渐稀有的知识元素。基于这一理论视角以及受到Heaps定律和Zipf定律启发的自然假设,我们引入了一个简化但具有代表性的分层数据生成框架,称为语法-知识模型。在贝叶斯框架下,我们展示了在这个模型中,预测和压缩自然会导致LLMs多样化的学习和缩放行为。特别是,我们的理论分析为数据和模型缩放定律、训练和微调过程中知识的获取动态、LLMs的事实知识幻觉提供了直观且原理性的解释。实验结果验证了我们的理论预测。