LLM2D

摘要

大型语言模型 (LLMs) 在处理基于人类指令的各种任务方面表现出了非凡的效率，但研究表明，它们在需要推理的任务（如数学或物理）中往往难以应对。这种局限性引发了人们对 LLMs 是否真正理解嵌入的知识，还是仅仅学会复制标记分布而没有真正理解内容的疑问。本文深入研究了这个问题，旨在增强 LLMs 的推理能力。首先，我们通过可视化注意力和表示级别的文本生成过程来调查模型是否具有真正的推理能力。然后，我们将 LLMs 的推理过程构建到一个因果框架中，该框架为可视化中观察到的问题提供了正式解释。最后，基于此因果框架，我们提出了解混因果适应 (DCA)，这是一种新颖的参数高效微调 (PEFT) 方法，通过鼓励模型提取通用问题解决技能并将这些技能应用于不同的问题来增强模型的推理能力。实验表明，我们的方法在多个基准测试中始终优于基线，并且仅使用 120 万个可调参数，我们获得了与其他微调方法相当或更好的结果。这证明了我们的方法在提高 LLMs 的整体准确性和可靠性方面的有效性和效率。