LLM2D

摘要

arXiv:2504.15066v1 交叉领域公告类型：摘要：将视觉模态融入自动语音识别（ASR）任务中，显著提升了性能。然而，现有的音频-视觉语音识别（AVSR）数据集和方法通常仅依赖唇读信息或说话上下文的视频，忽视了结合这些不同有价值的视觉线索的可能性。本文中，我们发布了一个多模态中文AVSR数据集Chinese-LiPS，包含100小时的语音、视频和相应的手写转录，视觉模态包括唇读信息和演讲者使用的演示幻灯片。基于Chinese-LiPS，我们开发了一个简单而有效的管道LiPS-AVSR，利用唇读和演示幻灯片信息作为AVSR任务的视觉模态。实验表明，唇读信息和演示幻灯片信息分别提高了大约8%和25%的ASR性能，综合性能提升了约35%。该数据集可在 https://kiri0824.github.io/Chinese-LiPS/ 获取。