LLM2D

摘要

arXiv:2502.06601v1 交叉类型: 摘要：贝叶斯推断提供了一种自然地将先验信念纳入并为假设空间赋予概率测度的方法。当前的解决方案依赖于马尔可夫链蒙特卡洛（MCMC）采样和变分推断（VI）等迭代规程，当有新的观察数据可用时，这些方法需要重新运行。通过条件估计进行的去初始化是缓解这种困难的一种可行策略，并已成为基于仿真推断、神经过程以及使用预训练模型的上下文方法背后的指导原则。在本文中，我们从不同的优化目标和结构选择的角度，对基于上下文的贝叶斯后验估计的方法进行了全面的对比分析。这些方法通过条件估计训练一个去初始化的估计器，在序列模型（如变换器）中以一组数据示例作为上下文进行后验参数推理。与语言模型不同，我们利用不变结构，因为真正的后验在上下文示例的顺序上是不变的。我们的实证研究包括对分布外任务的泛化、假设底层模型错误指定的情况，以及从仿真问题转移到真实问题。随后，它突显了对预测问题，尤其是在与变换器架构和规范化流结合使用时，逆KL估计器的优越性。