摘要
尽管语言模型的有效性不断提高,但它们的推理能力仍然不发达。特别是,通过反事实问答进行的因果推理是缺乏的。这项工作旨在弥合这一差距。我们首先推导出新的指标,平衡事实问题和反事实问题的准确性,与传统的仅基于事实的指标相比,更全面地反映了语言模型的推理能力。其次,我们提出了几种微调方法,旨在根据所提出的指标,引出更好的推理机制。最后,我们在各种现实场景中评估了微调后的语言模型的性能。特别是,我们研究了我们的微调方法在多大程度上系统性地比基线模型在需要归纳和演绎推理能力等问题的泛化能力上有所改进。