摘要
arXiv:2504.15066v1 交叉领域公告类型:
摘要:将视觉模态融入自动语音识别(ASR)任务中,显著提升了性能。然而,现有的音频-视觉语音识别(AVSR)数据集和方法通常仅依赖唇读信息或说话上下文的视频,忽视了结合这些不同有价值的视觉线索的可能性。本文中,我们发布了一个多模态中文AVSR数据集Chinese-LiPS,包含100小时的语音、视频和相应的手写转录,视觉模态包括唇读信息和演讲者使用的演示幻灯片。基于Chinese-LiPS,我们开发了一个简单而有效的管道LiPS-AVSR,利用唇读和演示幻灯片信息作为AVSR任务的视觉模态。实验表明,唇读信息和演示幻灯片信息分别提高了大约8%和25%的ASR性能,综合性能提升了约35%。该数据集可在 https://kiri0824.github.io/Chinese-LiPS/ 获取。