LLM2D

摘要

因果机器学习的核心目标之一是从观察数据中准确估计异质性治疗效果。近年来，元学习已成为一种灵活的、与模型无关的范式，可以使用任何监督模型来估计条件平均治疗效果 (CATE)。本文研究了当混杂变量以文本形式表达时，元学习器的性能。通过合成数据实验，我们表明，与仅依赖表格变量的元学习器相比，使用预训练的混杂变量文本表示（以及表格背景变量）的学习器能够获得改进的 CATE 估计，尤其是在数据量足够的情况下。然而，由于文本嵌入的纠缠性质，这些模型的性能并未完全达到拥有完美混杂变量知识的元学习器的水平。这些发现突出了预训练文本表示在因果推断中的潜力和局限性，并为未来的研究开辟了有趣的途径。