摘要
arXiv:2502.03325v1 类型: cross
摘要: 近年来,大型语言模型(LLMs)的发展在各种应用中取得了显著的成功,其中最显著的是出现了一系列新兴能力,特别是在上下文内学习(ICL)和推理链(CoT)领域。为了更好地理解并控制模型的效果,许多研究已经开始探讨这些现象的底层原因及其对任务结果的影响。然而,现有的解释框架主要集中在独立地分离和解释ICL和CoT,这导致了对其联合影响的不完整理解。为了解决这一问题,我们提出了电子电路模型(ECM),该模型为开发可扩展的学习策略和提高AI生成内容的管理提供了基础。具体而言,ECM 将模型行为类比为电子电路:ICL 被代表为语义磁场,根据法拉第电磁感应定律提供附加电压,而 CoT 被建模为一系列电阻,根据欧姆定律限制模型输出表现。实验结果表明,ECM 有效地预测和解释了不同提示策略下的LLM表现。此外,我们应用ECM 对国际信息学奥林匹克竞赛(IOI)和国际数学奥林匹克竞赛(IMO)等一系列任务的高级推理策略进行了优化,达到与近80%顶级人类竞争对手相当甚至更好的性能。