LLM2D

摘要

arXiv:2410.01265v3 宣告类型: replace-cross 摘要: 我们探讨了变压器处理上下文内线性回归中的内生性的能力。我们的主要发现是，变压器天生具有使用工具变量 (IV) 有效处理内生性的机制。首先，我们展示了变压器架构可以模拟基于梯度的双层优化过程，并以指数速度收敛到广泛使用的两阶段最小二乘法 (2SLS) 解。接着，我们提出了一个上下文内预训练方案，并提供了理论保证，表明预训练损失的全局极小值实现了较小的超额损失。我们的大量实验验证了这些理论发现，表明训练后的变压器在存在内生性的情况下提供了比2SLS方法更稳健且可靠的上下文内预测和系数估计。