LLM2D

摘要

arXiv:2504.10149v2 公告类型: replace-cross 摘要：深度学习模型的性能在运行时依赖于测试样本，而从训练数据分布的变化会显著降低准确性。测试时自适应（TTA）通过在推理过程中调整模型来解决这一问题，无需使用标记的测试数据或访问原始训练集。尽管研究从算法复杂性、数据和类分布变化、模型架构以及离线学习与连续学习等多个角度探索了TTA，但针对移动和边缘设备的具体约束仍然未被充分探讨。我们提出了一种名为BoTTA的基准，旨在在移动和边缘设备的实际约束条件下评估TTA方法。我们的评估针对四种由资源限制和使用条件引起的挑战：（i）有限的测试样本，（ii）有限的类曝光，（iii）多样化的分布变化，以及（iv）样本内的重叠变化。我们使用基准数据集评估最新的TTA方法，并在实际测试平台上报告系统级指标。此外，与先前的工作不同，我们通过提倡周期性自适应而非持续的推理时自适应，与设备上的需求保持一致。实验揭示了关键见解：许多最近的TTA算法在小数据集上挣扎，无法泛化到未见过的类别，并且依赖于分布变化的多样性和复杂性。BoTTA还报告了设备特定的资源使用情况。例如，尽管SHOT在使用512个适应样本时将准确性提高2.25倍，但在Raspberry Pi上使用峰值内存却是基模型的1.08倍。BoTTA为资源受限的实际部署中的TTA提供了可操作的指导。