摘要
arXiv:2407.07612v2 宣告类型: replace-cross
摘要:为了使基于文本的AI系统能够与现实世界进行交互,因果推理是一项基本技能。由于主动干预成本较高,我们研究的是系统是否可以从符号展示的因果公理中学习因果推理,而不仅仅是将公理作为归纳偏见或从数据值中推断出来。一个关键问题是系统是否会从公理的展示中泛化到更复杂的场景中。基于将公理训练方法应用于学习传递性公理和d-分离规则,我们的结果表明这种泛化是可能的。为了避免数据污染问题,我们从一个包含6700万个参数的变压器模型开始,并从头开始训练它。在两个任务中,我们发现,一个训练在包含线性因果链(以及一些噪声变化)上的模型可以很好地泛化到复杂图中,包括较长的因果链、因果链顺序相反的情况和分支图。为了处理各种文本输入,我们扩展了该方法对语言模型进行微调。在我们的公理数据上微调Llama-3.1 8B模型,显著提高了因果基准测试如Corr2Cause和CLEAR的表现,在某些情况下超越了GPT-4的性能。