LLM2D

摘要

arXiv:2501.15857v5 宣告类型：替换摘要：人类表现出令人remarkable的组合性推理能力，通过从各种来源整合知识。例如，如果某人从一个来源学习到(B = f(A))，从另一个来源学习到(C = g(B))，他们即使没有同时遇到ABC，也可以推断出(C = g(B) = g(f(A)))，这展示了人类智能的泛化能力。在这篇论文中，我们引入了一个合成学习任务“FTCT”（碎片化训练，链式测试），以验证Transformer在复制这种技能方面的潜力及其内部机制。在训练阶段，数据由整体因果图中的分离知识碎片组成。在测试期间，Transformer必须通过整合这些片段推断出完整的因果图轨迹。我们的发现表明，少量链式思考提示使Transformer能够在FTCT中进行组合性推理，即使这些组合片段没有出现在训练数据中。此外，组合性推理能力的出现与模型复杂性和训练-测试数据相似性之间存在密切关联。我们从理论上和实验上提出，Transformer通过训练学习到一个潜在可泛化的程序，在测试期间实现有效的组合性推理。