LLM2D
Transformer模型能够在训练数据中的分离知识之间进行推理吗?
Are Transformers Able to Reason by Connecting Separated Knowledge in Training Data?
作者: Yutong Yin, Zhaoran Wang
发布日期: 5/1/2025
arXiv ID: oai:arXiv.org:2501.15857v4

摘要

arXiv:2501.15857v4 宣告类型: 替代 摘要:人类通过整合各种来源的知识展示了惊人的组合推理能力。例如,如果从一个来源学习到(B=f(A)),从另一个来源学习到(C=g(B)),即使没有同时遇到ABC,他们也能推导出(C=g(B)=g(f(A))),展示了人类智能的泛化能力。本文介绍了一个合成学习任务"FTCT"(Training Fragmented, Chained at Testing),以验证Transformer在复制这种技能方面的潜力,并解释其内部机制。在训练阶段,数据由总体因果图中的分离知识片段组成。在测试阶段,Transformer必须通过整合这些片段来推断完整的因果图轨迹。我们的发现表明,少样本链式思维提示使Transformer能够在FTCT中进行组合推理,通过揭示正确的片段组合,即使这些组合不在训练数据中出现。此外,组合推理能力的出现与模型复杂度和训练-测试数据的相似性密切相关。我们从理论上和实验上提出了Transformer从训练中学习一种潜在的可泛化程序,并在测试过程中实现有效的组合推理。