LLM2D

摘要

arXiv:2502.14627v1 公告类型: cross 摘要：多语言音频-文本检索（ML-ATR）是一项具有挑战性的任务，其目标是从数据库中检索音频片段或多语言文本。然而，现有的ML-ATR方案在不同语言之间实例相似性匹配上存在不一致。我们从多语言模态对齐方向误差和权重误差两个方面理论上分析了这种不一致性，并提出了量化不一致性的理论权重误差上界。根据权重误差上界的分析，我们发现不一致性问题源于由语言随机采样引起的数据分布误差。我们提出了一种一致的ML-ATR方案，使用1-to-k对比学习和音频-英语共锚对比学习，旨在减轻由数据分布误差对ML-ATR召回率和一致性产生的负面影响。在翻译后的AudioCaps和Clotho数据集上的实验结果表明，我们的方案在八种主流语言（包括英语）的召回率和一致性指标上达到了最先进的性能。我们的代码将在https://github.com/ATRI-ACL/ATRI-ACL 可用。