LLM2D

摘要

arXiv:2504.09597v2 通知类型: 替换摘要：大型语言模型（LLMs）已在众多任务中展现出非凡的能力，但对其内部机制及多种现象，如缩放定律、幻觉及相关行为的原理性解释仍然匮乏。在本文中，我们回顾了基于柯尔莫哥洛夫复杂性和香农信息理论的经典压缩与预测关系，以更深入地理解LLM的行为。通过利用柯尔莫哥洛夫结构函数，我们将LLM压缩视为两部分编码过程，并提供了一个详细的视角，解释了在增加模型和数据规模时，LLM如何获取和存储信息——从普遍的句法模式到逐渐稀有的知识元素。受这一理论视角和由Heaps定律和Zipf定律启发的自然假设的驱使，我们引入了一个简化且代表性的层次化数据生成框架，称为句法-知识模型。在贝叶斯框架下，我们展示了这种模型中预测和压缩如何自然导致LLM的多样化学习和缩放行为。特别是，我们的理论分析为数据和模型缩放定律、训练和微调期间的知识获取动态以及LLM中的事实知识幻觉提供了直观且原则性的解释。实验结果验证了我们的理论预测。