LLM2D
揭开黑箱:大型语言模型推理和推断的统计模型
Beyond the Black Box: A Statistical Model for LLM Reasoning and Inference
发布日期: 9/25/2024
arXiv ID: oai:arXiv.org:2402.03175v2

摘要

本文提出了一种新颖的贝叶斯学习模型来解释大型语言模型 (LLM) 的行为,重点关注其核心优化指标——下一个词预测。我们基于一个理想的生成文本模型(由具有先验信息的 multinomial 转移概率矩阵表示)开发了一个理论框架,并研究了 LLM 如何逼近该矩阵。主要贡献包括:(i)一个将嵌入与 multinomial 分布联系起来的连续性定理,(ii)一个证明 LLM 文本生成与贝叶斯学习原则一致的论证,(iii)一个解释了更大模型中上下文学习出现的现象,(iv)使用来自一个仪器化 Llama 模型的下一个词概率的可视化进行的实证验证。我们的发现为 LLM 的功能提供了新的见解,为理解其能力和局限性提供了统计基础。该框架对 LLM 的设计、训练和应用具有影响,有可能指导该领域的未来发展。