LLM2D

摘要

arXiv:2410.02724v2 宣告类型: replace-cross 摘要：大语言模型（LLMs）在各种自然语言处理任务以及更广泛的领域内表现出惊人的效率。然而，对LLMs的泛化能力的全面理论分析仍然难以捉摸。在我们的论文中，我们通过将自回归变压器语言模型与有限状态空间上的Markov链之间的等效性联系起来，来解决这一问题。这样，我们能够从第一原理出发研究LLMs的多步推理机制。我们将获得的结果与LLMs观察到的病态行为，如重复和高温下的非连贯回复联系起来。最后，我们利用所提出的形式化方法，在实际数据和模型假设下推导出LLMs的预训练和上下文学习泛化界线。最新的Llama和Gemma模型群组的实验表明，我们的理论在实践中正确捕捉到了它们的行为。