摘要
arXiv:2505.02413v1 任务类型: 新
摘要: 任务导向的语义通信已经成为了提高各种通信场景性能的基本方法。尽管生成式人工智能(GenAI),如大型语言模型(LLMs)最近被应用到了语义通信的设计中,大型多模态模型(LMMs)的潜力仍未充分挖掘。在本文中,我们研究了基于LLMM的车辆AI助手,并使用了大型语言和视觉助手(LLaVA)来提出一种任务导向的语义通信框架,以促进用户和云服务器之间的高效互动。为减少计算需求并缩短响应时间,我们优化了LLaVA的图像切片,以便用户重点关注感兴趣的区域。此外,我们通过结合客观和主观的用户注意力评估图像斑块的重要性,并调整传输语义信息时的能量使用。这种策略优化了资源利用,确保了关键信息的精准传输。我们构建了一个用于交通场景的视觉问答(VQA)数据集来评估有效性。实验结果表明,我们的语义通信框架在相同信道条件下显著提高了问答准确性,特别是在信噪比(SNR)较差的环境中表现尤为出色。在12dB信噪比下,准确性可以提高13.4%,而在10dB信噪比下可以提高33.1%。