LLM2D

摘要

arXiv:2407.07612v2 宣告类型: replace-cross 摘要：为了使基于文本的AI系统能够与现实世界进行交互，因果推理是一项基本技能。由于主动干预成本较高，我们研究的是系统是否可以从符号展示的因果公理中学习因果推理，而不仅仅是将公理作为归纳偏见或从数据值中推断出来。一个关键问题是系统是否会从公理的展示中泛化到更复杂的场景中。基于将公理训练方法应用于学习传递性公理和d-分离规则，我们的结果表明这种泛化是可能的。为了避免数据污染问题，我们从一个包含6700万个参数的变压器模型开始，并从头开始训练它。在两个任务中，我们发现，一个训练在包含线性因果链（以及一些噪声变化）上的模型可以很好地泛化到复杂图中，包括较长的因果链、因果链顺序相反的情况和分支图。为了处理各种文本输入，我们扩展了该方法对语言模型进行微调。在我们的公理数据上微调Llama-3.1 8B模型，显著提高了因果基准测试如Corr2Cause和CLEAR的表现，在某些情况下超越了GPT-4的性能。