LLM2D
BoTTA:设备端测试时长适应xing基准测试
BoTTA: Benchmarking on-device Test Time Adaptation
作者: Michal Danilowski, Soumyajit Chatterjee, Abhirup Ghosh
发布日期: 4/17/2025
arXiv ID: oai:arXiv.org:2504.10149v2

摘要

arXiv:2504.10149v2 公告类型: replace-cross 摘要:深度学习模型的性能在运行时依赖于测试样本,而从训练数据分布的变化会显著降低准确性。测试时自适应(TTA)通过在推理过程中调整模型来解决这一问题,无需使用标记的测试数据或访问原始训练集。尽管研究从算法复杂性、数据和类分布变化、模型架构以及离线学习与连续学习等多个角度探索了TTA,但针对移动和边缘设备的具体约束仍然未被充分探讨。我们提出了一种名为BoTTA的基准,旨在在移动和边缘设备的实际约束条件下评估TTA方法。我们的评估针对四种由资源限制和使用条件引起的挑战:(i)有限的测试样本,(ii)有限的类曝光,(iii)多样化的分布变化,以及(iv)样本内的重叠变化。我们使用基准数据集评估最新的TTA方法,并在实际测试平台上报告系统级指标。此外,与先前的工作不同,我们通过提倡周期性自适应而非持续的推理时自适应,与设备上的需求保持一致。实验揭示了关键见解:许多最近的TTA算法在小数据集上挣扎,无法泛化到未见过的类别,并且依赖于分布变化的多样性和复杂性。BoTTA还报告了设备特定的资源使用情况。例如,尽管SHOT在使用512个适应样本时将准确性提高2.25倍,但在Raspberry Pi上使用峰值内存却是基模型的1.08倍。BoTTA为资源受限的实际部署中的TTA提供了可操作的指导。