摘要
arXiv:2502.04834v1 Announce Type: cross
摘要:视觉语音识别(VSR),从视频数据中解码所说的话语,提供了显著的好处,尤其是在音频不可用的情况下。然而,视频数据的高维度导致了计算成本的急剧增加,需要强大的硬件支持,这限制了VSR在资源受限设备上的部署。本工作通过开发轻量级的VSR架构来解决这一限制。借助高效的运算设计范式,我们创建了紧凑且强大的模型,减少了资源需求并最大限度地减少了准确性损失。我们在一个大型公开数据集上训练和评估了这些模型,该数据集用于从视频序列中识别单词,证明了它们在实际应用中的有效性。我们还进行了广泛的消融实验,以彻底分析每个模型的大小和复杂性。代码和训练模型将公开发布。