LLM2D

摘要

arXiv:2502.04834v1 Announce Type: cross 摘要：视觉语音识别（VSR），从视频数据中解码所说的话语，提供了显著的好处，尤其是在音频不可用的情况下。然而，视频数据的高维度导致了计算成本的急剧增加，需要强大的硬件支持，这限制了VSR在资源受限设备上的部署。本工作通过开发轻量级的VSR架构来解决这一限制。借助高效的运算设计范式，我们创建了紧凑且强大的模型，减少了资源需求并最大限度地减少了准确性损失。我们在一个大型公开数据集上训练和评估了这些模型，该数据集用于从视频序列中识别单词，证明了它们在实际应用中的有效性。我们还进行了广泛的消融实验，以彻底分析每个模型的大小和复杂性。代码和训练模型将公开发布。