LLM2D

摘要

arXiv:2407.20891v5 宣布类型: replace-cross 摘要：贝叶斯学习的计算复杂性阻碍了其在实际大规模任务中的应用。尽管非贝叶斯方法在提高鲁棒性和对未见过或分布外输入的抗干扰性方面表现出显著的优势，但在实际应用中的使用率几乎降至不重要。在本研究中，我们提出了一个创新框架来缓解贝叶斯神经网络（BNNs）的计算负担。我们遵循基于深度集的贝叶斯技术原则，但通过多个预先训练神经网络参数的低秩扰动，显著降低了其成本。传统的集成版本以及先前被认为对于大型模型不切实际的更复杂的方案，如利用Stein变分梯度下降（SVGD）的贝叶斯学习，都可以无缝地在所提出的框架中实现，称为贝叶斯低秩学习（Bella）。简而言之，i) Bella 实现了对近似贝叶斯后验所需的可训练参数数量的大幅减少；ii) 它不仅维护了传统的贝叶斯学习方法和非贝叶斯基线方法的性能，而在某些情况下甚至超过了它们。我们对于大型任务（如 ImageNet、CAMELYON17、DomainNet、CLIP 的 VQA、LLaVA）的实验结果证明了 Bella 在构建高扩展性和实用的贝叶斯深度模型方面的有效性及灵活性，以满足实际应用的需求。