LLM2D

摘要

我们探索了 Transformer 在解决上下文线性回归中的内生性问题的能力。我们的主要发现是，Transformer 本身拥有利用工具变量 (IV) 有效处理内生性的机制。首先，我们证明了 Transformer 架构可以模拟梯度下降双层优化过程，该过程以指数速度收敛到广泛使用的两阶段最小二乘 (2SLS) 解决方案。接下来，我们提出了一种上下文预训练方案，并提供了理论保证，表明预训练损失的全局最小化器可以实现较小的过剩损失。我们广泛的实验验证了这些理论发现，表明在存在内生性的情况下，经过训练的 Transformer 比 2SLS 方法提供了更稳健和可靠的上下文预测和系数估计。