LLM2D

摘要

arXiv:2505.05870v1 交叉公告类型：交叉摘要：随着面部图像数据在各个领域的广泛应用，面部图像的高效存储和传输引起了广泛关注。然而，现有的学习面部图像压缩方法在低位率下往往会产生不满意的重建图像质量。简单地将基于扩散的方法应用于面部压缩任务会导致由于高频信息保存不足而在下游应用中表现不佳的重建图像。为了进一步探索面部图像压缩中的扩散先验，我们提出了面部图像压缩中的稳定扩散先验（FaSDiff）方法，该方法通过频率增强保持一致性。FaSDiff采用一个高频率敏感的压缩器嵌入端到端框架中，以捕捉细微图像细节并生成稳健的视觉提示。此外，我们引入了一个混合低频率增强模块，该模块将低频率面部语义与视觉提示分开，同时稳定调节扩散先验。所提出的模块允许FaSDiff在保持人类视觉感知的同时，最大限度地减少由于语义不一致性而导致的机器视觉性能下降。广泛的实验表明，FaSDiff在平衡人类视觉质量和机器视觉精度方面优于现有先进方法。论文被接受后将发布代码。