LLM2D
视频问答-SC:自适应语义通信模型在视频问答中的应用
VideoQA-SC: Adaptive Semantic Communication for Video Question Answering
作者: Jiangyuan Guo, Wei Chen, Yuxuan Sun, Jialong Xu, Bo Ai
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2406.18538v2

摘要

arXiv:2406.18538v2 通告类型: 替换-交叉 摘要:尽管语义通信(SC)已在高效传输文本、演讲和图像等多种模态数据方面展现了其潜力,但现有的SC系统主要侧重于像素级重建,特别是在视频方面。然而,这些SC系统可能不适宜于下游智能任务。此外,无需在接收端进行视频重建的SC系统具有优势,可以在各种智能任务中实现更高的带宽效率和实时性能。这类系统设计的难点在于提取与任务相关的紧凑语义表示,并通过多噪信道准确地传达这些表示。在这篇论文中,我们提出了一种端到端的SC系统,命名为VideoQA-SC,用于视频问答(VideoQA)任务。我们的目标是在有噪或衰落的无线信道上直接基于视频语义完成VideoQA任务,从而绕过接收端需要进行视频重建的需求。为此,我们开发了一种时空语义编码器用于有效的视频语义提取,并提出了一种基于学习的宽带自适应的深度联合源-信道编码(DJSCC)方案,用于高效且稳健的视频语义传输。实验结果表明,VideoQA-SC在各种信道条件和带宽限制下,相较于依赖接收端视频重建的传统和先进DJSCC为基础的SC系统具有更高的性能。特别是当信噪比低时,与先进的基于DJSCC的SC系统相比,VideoQA-SC可以提高答案准确性5.17%,同时可以节省几乎99.5%的带宽。我们的结果展示了SC系统设计在视频应用方面巨大的潜力。