LLM2D

摘要

arXiv:2406.18538v2 通告类型: 替换-交叉摘要：尽管语义通信（SC）已在高效传输文本、演讲和图像等多种模态数据方面展现了其潜力，但现有的SC系统主要侧重于像素级重建，特别是在视频方面。然而，这些SC系统可能不适宜于下游智能任务。此外，无需在接收端进行视频重建的SC系统具有优势，可以在各种智能任务中实现更高的带宽效率和实时性能。这类系统设计的难点在于提取与任务相关的紧凑语义表示，并通过多噪信道准确地传达这些表示。在这篇论文中，我们提出了一种端到端的SC系统，命名为VideoQA-SC，用于视频问答（VideoQA）任务。我们的目标是在有噪或衰落的无线信道上直接基于视频语义完成VideoQA任务，从而绕过接收端需要进行视频重建的需求。为此，我们开发了一种时空语义编码器用于有效的视频语义提取，并提出了一种基于学习的宽带自适应的深度联合源-信道编码（DJSCC）方案，用于高效且稳健的视频语义传输。实验结果表明，VideoQA-SC在各种信道条件和带宽限制下，相较于依赖接收端视频重建的传统和先进DJSCC为基础的SC系统具有更高的性能。特别是当信噪比低时，与先进的基于DJSCC的SC系统相比，VideoQA-SC可以提高答案准确性5.17%，同时可以节省几乎99.5%的带宽。我们的结果展示了SC系统设计在视频应用方面巨大的潜力。