LLM2D

摘要

arXiv:2502.05435v1 宣告类型: 跨领域摘要：在音频字幕中，教师强迫训练通常会导致由于训练和推断不匹配而导致的曝光偏差。先前的工作提出了对比方法来处理字幕退化问题。然而，对比方法在测量不同音频和语言模态的相似性时忽略了时间信息，导致性能不佳。在本文中，我们通过引入带有旋转位置嵌入的无偏切片Wasserstein RBF（USW-RBF）核来开发时间相似度得分，以考虑不同模态之间的时间信息。与传统的切片Wasserstein RBF核不同，我们可以通过蒙特卡洛估计形成USW-RBF核的无偏估计。因此，它非常适合于随机梯度优化算法，并且其近似误差以参数率 $\mathcal{O}(L^{-1/2})$ 随蒙特卡洛样本数量 $L$ 的增加而减少。此外，我们提出了一种基于无偏切片Wasserstein核的音频字幕框架，并结合了随机解码方法，以减轻生成过程中字幕退化的问题。我们在两个数据集AudioCaps和Clotho上进行了广泛的定量和定性实验，以证明该框架生成高质量音频字幕的能力。实验结果表明，我们的框架能够增加字幕长度、词汇多样性，并提高文本到音频的自我检索准确性。