LLM2D

摘要

arXiv:2504.09635v1 宣告类型: 新摘要: 从观察数据中进行因果推断的匹配旨在构建具有相似协变量分布的处理组和对照组，从而减少混杂因素并确保对处理效应的无偏估计。这种匹配样本能够接近随机对照试验（RCT），从而提高因果估计的质量。我们引入了一种新颖的两阶段可解释匹配（TIM）框架，用于透明且可解释的协变量匹配。在第一阶段，我们在所有可用的协变量上进行精确匹配。对于第一阶段中没有精确匹配的处理单位和对照单位，我们进入第二阶段。在第二阶段，我们通过在每次迭代中移除最不显著的混杂因素并尝试在剩余协变量上进行精确匹配来逐步细化匹配过程。我们为移除的协变量学习一个距离度量，以量化在相应层内与处理单位之间的接近程度。我们使用这些高质量的匹配来估计条件平均处理效应（CATEs）。为了验证TIM的有效性，我们在具有不同关联结构和相关性的合成数据集上进行了实验。我们通过测量CATE估计的偏差和评估处理组和对照组在匹配前后多变量重叠程度来评估其性能。此外，我们还将TIM应用于疾病控制与预防中心（CDC）的真实世界医疗数据集，以估计高胆固醇对糖尿病的因果效应。我们的结果表明，TIM可以提高CATE估计，增加多变量重叠，并且能够有效地扩展到高维数据，使其成为观察数据中因果推断的稳健工具。