LLM2D

摘要

arXiv:2502.09971v1 交叉公告类型：cross 摘要：在本文中，我们研究了如何从外部字典合成一个动态参考，以在潜在域中对输入图像进行条件编码，并探讨如何以端到端的方式学习条件潜在合成和编码模块。我们的方法始于使用多阶段方法构建一个通用的图像特征字典，该方法包括修改后的空间金字塔池化、维数降低和多尺度特征聚类。对于每个输入图像，我们学习通过从字典中选择和合成相关的特征来合成条件潜在变量，这显著增强了模型捕获和探索图像源相关性的能力。这种条件潜在变量合成涉及基于相关性的特征匹配和对齐策略，包括一个条件潜在匹配（CLM）模块和一个条件潜在合成（CLS）模块。合成的潜在变量随后用于引导编码过程，通过利用输入图像与参考字典之间的相关性来实现更高效的压缩。根据我们的理论分析，所提出的条件潜在编码（CLC）方法对外部字典样本和选定的条件潜在变量的扰动具有鲁棒性，其误差上限与字典大小呈对数关系，即使使用大量和多样化的字典也能确保稳定性。基准数据集上的实验结果显示，与现有方法相比，我们的新方法在编码性能上有显著提高（最多可达1.2 dB），并且仅需很小的额外开销，约为每像素0.5%的比特数。我们的代码已在 https://github.com/ydchen0806/CLC 公开发行。