摘要
arXiv:2504.14963v1 交叉类型公告
摘要:使用语音录音进行说话人识别利用了独特的声学特征,但在仅可用文本数据的情况下,这种方法会失效。很少有方法试图仅从文本中识别说话人,而现有的方法主要依赖于传统的方法。在这项工作中,我们探索了使用大型预训练模型的模糊指纹来提高基于文本的说话人识别的效果。我们结合了说话人特定的标记和上下文感知建模,证明了对话上下文显著提升了准确性,在Friends数据集上达到了70.6%,在Big Bang Theory数据集上达到了67.7%。此外,我们展示了模糊指纹可以用更少的隐藏单元近似完全微调的效果,提供了更好的可解释性。最后,我们分析了含糊不清的言论,并提出了一种机制来检测无特定说话人的台词。我们的发现突出了关键挑战,并为未来基于文本的说话人识别改进提供了见解。