摘要
arXiv:2502.05435v1 宣告类型: 跨领域
摘要:在音频字幕中,教师强迫训练通常会导致由于训练和推断不匹配而导致的曝光偏差。先前的工作提出了对比方法来处理字幕退化问题。然而,对比方法在测量不同音频和语言模态的相似性时忽略了时间信息,导致性能不佳。在本文中,我们通过引入带有旋转位置嵌入的无偏切片Wasserstein RBF(USW-RBF)核来开发时间相似度得分,以考虑不同模态之间的时间信息。与传统的切片Wasserstein RBF核不同,我们可以通过蒙特卡洛估计形成USW-RBF核的无偏估计。因此,它非常适合于随机梯度优化算法,并且其近似误差以参数率 $\mathcal{O}(L^{-1/2})$ 随蒙特卡洛样本数量 $L$ 的增加而减少。此外,我们提出了一种基于无偏切片Wasserstein核的音频字幕框架,并结合了随机解码方法,以减轻生成过程中字幕退化的问题。我们在两个数据集AudioCaps和Clotho上进行了广泛的定量和定性实验,以证明该框架生成高质量音频字幕的能力。实验结果表明,我们的框架能够增加字幕长度、词汇多样性,并提高文本到音频的自我检索准确性。