LLM2D
Chinese-LiPS:一个包含唇读和演示幻灯片的中文视听语音识别数据集
Chinese-LiPS: A Chinese audio-visual speech recognition dataset with Lip-reading and Presentation Slides
作者: Jinghua Zhao, Yuhang Jia, Shiyao Wang, Jiaming Zhou, Hui Wang, Yong Qin
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.15066v1

摘要

arXiv:2504.15066v1 交叉领域公告类型: 摘要:将视觉模态融入自动语音识别(ASR)任务中,显著提升了性能。然而,现有的音频-视觉语音识别(AVSR)数据集和方法通常仅依赖唇读信息或说话上下文的视频,忽视了结合这些不同有价值的视觉线索的可能性。本文中,我们发布了一个多模态中文AVSR数据集Chinese-LiPS,包含100小时的语音、视频和相应的手写转录,视觉模态包括唇读信息和演讲者使用的演示幻灯片。基于Chinese-LiPS,我们开发了一个简单而有效的管道LiPS-AVSR,利用唇读和演示幻灯片信息作为AVSR任务的视觉模态。实验表明,唇读信息和演示幻灯片信息分别提高了大约8%和25%的ASR性能,综合性能提升了约35%。该数据集可在 https://kiri0824.github.io/Chinese-LiPS/ 获取。