LLM2D

摘要

arXiv:2502.03325v1 类型: cross 摘要: 近年来，大型语言模型（LLMs）的发展在各种应用中取得了显著的成功，其中最显著的是出现了一系列新兴能力，特别是在上下文内学习（ICL）和推理链（CoT）领域。为了更好地理解并控制模型的效果，许多研究已经开始探讨这些现象的底层原因及其对任务结果的影响。然而，现有的解释框架主要集中在独立地分离和解释ICL和CoT，这导致了对其联合影响的不完整理解。为了解决这一问题，我们提出了电子电路模型（ECM），该模型为开发可扩展的学习策略和提高AI生成内容的管理提供了基础。具体而言，ECM 将模型行为类比为电子电路：ICL 被代表为语义磁场，根据法拉第电磁感应定律提供附加电压，而 CoT 被建模为一系列电阻，根据欧姆定律限制模型输出表现。实验结果表明，ECM 有效地预测和解释了不同提示策略下的LLM表现。此外，我们应用ECM 对国际信息学奥林匹克竞赛（IOI）和国际数学奥林匹克竞赛（IMO）等一系列任务的高级推理策略进行了优化，达到与近80%顶级人类竞争对手相当甚至更好的性能。