LLM2D

摘要

arXiv:2505.02413v1 任务类型: 新摘要: 任务导向的语义通信已经成为了提高各种通信场景性能的基本方法。尽管生成式人工智能（GenAI），如大型语言模型（LLMs）最近被应用到了语义通信的设计中，大型多模态模型（LMMs）的潜力仍未充分挖掘。在本文中，我们研究了基于LLMM的车辆AI助手，并使用了大型语言和视觉助手（LLaVA）来提出一种任务导向的语义通信框架，以促进用户和云服务器之间的高效互动。为减少计算需求并缩短响应时间，我们优化了LLaVA的图像切片，以便用户重点关注感兴趣的区域。此外，我们通过结合客观和主观的用户注意力评估图像斑块的重要性，并调整传输语义信息时的能量使用。这种策略优化了资源利用，确保了关键信息的精准传输。我们构建了一个用于交通场景的视觉问答（VQA）数据集来评估有效性。实验结果表明，我们的语义通信框架在相同信道条件下显著提高了问答准确性，特别是在信噪比（SNR）较差的环境中表现尤为出色。在12dB信噪比下，准确性可以提高13.4%，而在10dB信噪比下可以提高33.1%。