LLM2D

摘要

arXiv:2408.16429v2 宣告类型: replace-cross 摘要: 在监督学习中，特别是在关键应用中，权衡计算效率与稳健的预测性能至关重要。标准的深度学习模型虽然精度高且具有可扩展性，但在概率特征方面，如校准预测和不确定性量化，常常有所欠缺。贝叶斯方法可以解决这些问题，但在模型和数据复杂度增加时，计算成本通常会变得昂贵。之前的工作表明，快速的变分方法可以通过消除梯度计算或采样的需求来降低贝叶斯方法的计算需求，但这些方法通常局限于简单的模型。我们提出了CAVI-CMN，这是一种快速、无梯度的变分方法，用于训练条件混合网络（CMN），这是一种混合专家（MoE）模型的概率变体。CMN由线性专家和softmax门控网络组成。通过利用条件共轭和Polya-Gamma增广，为线性层和门控网络的权重提供了高斯似然估计。这使得可以使用坐标上升变分推断（CAVI）进行高效的变分更新，避免了传统的基于梯度的优化。我们通过在UCI存储库的标准分类基准上训练两层CMN来验证这种方法。CAVI-CMN在预测准确度上与反向传播下的最大似然估计（MLE）竞争，并且通常优于MLE，同时保持了可竞争的运行时间和所有模型参数的完整后验分布。此外，随着输入规模或专家数量的增加，计算时间与MLE和其他基于梯度的解决方案（如黑箱变分推断，BBVI）处于可竞争的水平，这使得CAVI-CMN成为深度、快速且无梯度的贝叶斯网络的有希望的工具。