LLM2D

摘要

因果机器学习的核心目标之一是从观察数据中准确估计异质性治疗效果。近年来，元学习作为一种灵活的、模型无关的范式出现，可以利用任何监督学习模型来估计条件平均治疗效果（CATE）。本文考察了当混杂变量嵌入文本时，元学习者的性能。通过合成数据实验，我们表明，与仅依赖表格变量的学习者相比，使用混杂变量的预训练文本表示的学习者能够获得更好的 CATE 估计，尤其是在数据量充足的情况下。然而，由于文本嵌入的纠缠性质，这些模型的性能与具有完美混杂变量知识的元学习者并不完全匹配。这些发现突出了预训练文本表示在因果推断方面的潜力和局限性，并为未来的研究开辟了有趣的途径。