LLM2D

摘要

数据增强已被证明对提升机器学习模型的鲁棒性具有显著贡献。在大多数情况下，数据增强技术在训练阶段被应用。然而，测试时增强（Test-Time Augmentation, TTA）则是一种在测试阶段利用这些数据增强技术以实现鲁棒预测的方法。具体而言，TTA通过对同一实例进行多次数据增强并平均其预测结果来生成最终预测。尽管TTA的有效性已在实证研究中得到报告，但其预测性能的提升显然依赖于测试阶段所采用的数据增强方法集合。特别是，这些数据增强方法对性能的贡献应有所不同。换言之，我们预期在用于TTA的数据增强方法集合中，各方法的贡献程度可能存在差异，这种差异可能对预测性能产生负面影响。在本研究中，我们提出了一种基于各数据增强方法贡献度的加权TTA版本。某些TTA变体可以视为在解决确定适当权重的问题。我们证明，这种加权TTA的系数确定问题可以在变分贝叶斯框架下进行形式化。此外，我们还展示了通过优化权重以最大化边际对数似然，可以在测试阶段抑制不必要的数据增强候选方法。