LLM2D
通过辅助损失优化编码器以提升机器图像编码
Improving Image Coding for Machines through Optimizing Encoder via Auxiliary Loss
作者: Kei Iino, Shunsuke Akamatsu, Hiroshi Watanabe, Shohei Enomoto, Akira Sakamoto, Takeharu Eda
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2402.08267v2

摘要

面向机器的图像编码 (ICM) 旨在使用识别模型而非人类视觉来压缩图像以供机器分析。因此,在 ICM 中,编码器识别并压缩机器识别任务所需的信息至关重要。学习型 ICM 中主要有两种方法:基于任务损失的压缩模型优化和基于感兴趣区域 (ROI) 的比特分配。这些方法为编码器提供了识别能力。然而,当识别模型很深时,使用任务损失进行优化会变得困难,而基于 ROI 的方法在评估期间通常会带来额外的开销。在本研究中,我们提出了一种新的学习型 ICM 模型训练方法,该方法在编码器中应用辅助损失,以提高其识别能力和率失真性能。与传统训练方法相比,我们的方法在目标检测和语义分割任务中实现了 27.7% 和 20.3% 的 Bjontegaard Delta 速率改进。