LLM2D

摘要

面向机器的图像编码 (ICM) 旨在使用识别模型而非人类视觉来压缩图像以供机器分析。因此，在 ICM 中，编码器识别并压缩机器识别任务所需的信息至关重要。学习型 ICM 中主要有两种方法：基于任务损失的压缩模型优化和基于感兴趣区域 (ROI) 的比特分配。这些方法为编码器提供了识别能力。然而，当识别模型很深时，使用任务损失进行优化会变得困难，而基于 ROI 的方法在评估期间通常会带来额外的开销。在本研究中，我们提出了一种新的学习型 ICM 模型训练方法，该方法在编码器中应用辅助损失，以提高其识别能力和率失真性能。与传统训练方法相比，我们的方法在目标检测和语义分割任务中实现了 27.7% 和 20.3% 的 Bjontegaard Delta 速率改进。