LLM2D

摘要

arXiv:2504.15663v1 交叉公告类型：cross 摘要：近期，由于语音合成和声音转换技术的进步，虚假音频检测得到了广泛关注，这增加了自动说话人验证（ASV）系统受到欺骗攻击的脆弱性。这项任务中的一个关键挑战是将模型泛化以检测未见过的、不在分布（OOD）的攻击。尽管现有方法已经取得了令人鼓舞的结果，但由于使用了softmax进行分类，它们不可避免地存在过度自信问题，这会导致在遇到不可预测的欺骗尝试时产生不可靠的预测。为了应对这一局限性，我们提出了一种新颖的框架，称为基于证据学习的虚假音频检测（FADEL）。通过使用Dirichlet分布建模类概率，FADEL将模型不确定性纳入其预测中，从而在OOD场景下获得更稳健的表现。在ASVspoof2019逻辑访问（LA）和ASVspoof2021 LA数据集上的实验结果显示，所提出的方法显著提高了基线模型的性能。此外，我们通过分析不同欺骗算法的平均不确定性与同等错误率（EER）之间的强相关性，展示了不确定性估计的有效性。