LLM2D
Transformer能在训练数据中连接分离的知识来进行推理吗?
Are Transformers Able to Reason by Connecting Separated Knowledge in Training Data?
作者: Yutong Yin, Zhaoran Wang
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2501.15857v5

摘要

arXiv:2501.15857v5 宣告类型:替换 摘要:人类表现出令人remarkable的组合性推理能力,通过从各种来源整合知识。例如,如果某人从一个来源学习到(B = f(A)),从另一个来源学习到(C = g(B)),他们即使没有同时遇到ABC,也可以推断出(C = g(B) = g(f(A))),这展示了人类智能的泛化能力。在这篇论文中,我们引入了一个合成学习任务“FTCT”(碎片化训练,链式测试),以验证Transformer在复制这种技能方面的潜力及其内部机制。在训练阶段,数据由整体因果图中的分离知识碎片组成。在测试期间,Transformer必须通过整合这些片段推断出完整的因果图轨迹。我们的发现表明,少量链式思考提示使Transformer能够在FTCT中进行组合性推理,即使这些组合片段没有出现在训练数据中。此外,组合性推理能力的出现与模型复杂性和训练-测试数据相似性之间存在密切关联。我们从理论上和实验上提出,Transformer通过训练学习到一个潜在可泛化的程序,在测试期间实现有效的组合性推理。