LLM2D
大型语言模型作为马尔可夫链
Large Language Models as Markov Chains
作者: Oussama Zekri, Ambroise Odonnat, Abdelhakim Benechehab, Linus Bleistein, Nicolas Boull\'e, Ievgen Redko
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2410.02724v2

摘要

arXiv:2410.02724v2 宣告类型: replace-cross 摘要:大语言模型(LLMs)在各种自然语言处理任务以及更广泛的领域内表现出惊人的效率。然而,对LLMs的泛化能力的全面理论分析仍然难以捉摸。在我们的论文中,我们通过将自回归变压器语言模型与有限状态空间上的Markov链之间的等效性联系起来,来解决这一问题。这样,我们能够从第一原理出发研究LLMs的多步推理机制。我们将获得的结果与LLMs观察到的病态行为,如重复和高温下的非连贯回复联系起来。最后,我们利用所提出的形式化方法,在实际数据和模型假设下推导出LLMs的预训练和上下文学习泛化界线。最新的Llama和Gemma模型群组的实验表明,我们的理论在实践中正确捕捉到了它们的行为。