LLM2D

摘要

音频-视觉说话人跟踪旨在利用多传感器平台捕获的信号来确定场景中人类目标的位置，其准确性和鲁棒性可以通过多模态融合方法得到提升。近年来，一些融合方法被提出以模拟多种模态之间的相关性。然而，对于说话人跟踪问题，音频和视觉信号之间的跨模态交互尚未得到充分利用。为此，我们在这项工作中提出了一种具有深度音频-视觉融合模型的新型说话人跟踪网络（STNet）。我们设计了一种视觉引导的声学测量方法，以在统一的定位空间中融合异构线索，该方法利用相机模型的视觉观察来构建增强的声学地图。对于特征融合，采用跨模态注意力模块来联合建模多模态上下文和交互。音频和视觉特征之间的相关信息在融合模型中进一步交互。此外，基于 STNet 的跟踪器通过一个质量感知模块应用于多说话人情况，该模块评估多模态观察的可信度，以在复杂场景中实现鲁棒跟踪。在 AV16.3 和 CAV3D 数据集上的实验表明，所提出的基于 STNet 的跟踪器优于单模态方法和最先进的音频-视觉说话人跟踪器。