摘要
我们探索了 Transformer 在解决上下文线性回归中的内生性问题的能力。我们的主要发现是,Transformer 本身拥有利用工具变量 (IV) 有效处理内生性的机制。首先,我们证明了 Transformer 架构可以模拟梯度下降双层优化过程,该过程以指数速度收敛到广泛使用的两阶段最小二乘 (2SLS) 解决方案。接下来,我们提出了一种上下文预训练方案,并提供了理论保证,表明预训练损失的全局最小化器可以实现较小的过剩损失。我们广泛的实验验证了这些理论发现,表明在存在内生性的情况下,经过训练的 Transformer 比 2SLS 方法提供了更稳健和可靠的上下文预测和系数估计。