LLM2D

摘要

arXiv:2505.10405v1 通导类型: 跨领域摘要：基于大型人工智能（AI）模型的生成语义通信（Gen-SemCom）有望为6G网络带来变革性的范式，通过传输低维度的提示而不是原始数据来降低通信成本。然而，纯提示驱动的生成会失去细微的视觉细节。此外，目前缺乏系统性的评估指标来评估Gen-SemCom系统的性能。为了解决这些问题，我们开发了一个与关键信息嵌入（CIE）框架相结合的混合Gen-SemCom系统，其中同时提取了文本提示和语义关键特征进行传输。首先，提出了一种新颖的语义筛选方法，用于选择并传输与语义标签相关的图像的关键特征。通过整合文本提示和关键特征，接收器利用基于扩散的生成模型重建高保真图像。接下来，我们提出了生成视觉信息保真度（GVIF）指标来评估生成图像的视觉质量。通过表征图像特征的统计模型，GVIF指标量化了失真特征与原始特征之间的互信息。通过最大化GVIF指标，我们设计了一个适应信道状态的Gen-SemCom系统，能够根据信道状态自适应地控制特征体积和压缩率。实验结果验证了GVIF指标对视觉保真度的敏感性，与PSNR和关键信息体积均呈正相关。此外，优化后的系统在性能上优于基准方案，表现为更高的PSNR和更低的FID分数。