LLM2D

摘要

arXiv:2504.10149v1 宣告类型: cross 摘要：深度学习模型的性能在运行时严重依赖测试样本，且从训练数据分布到测试数据分布的变化会显著降低准确性。测试时适应(TTA)通过在不需要标记的测试数据或访问原始训练集的情况下调整模型来解决这一问题。尽管从算法复杂性、数据和类别分布变化、模型架构以及离线学习与连续学习等方面对TTA进行了研究，但针对移动和边缘设备的具体约束仍然未被充分探索。我们提出了BoTTA，一个旨在评估在移动和边缘设备上的实际约束条件下TTA方法的基准。我们的评估针对四个由有限资源和使用条件引起的挑战：(i) 有限的测试样本，(ii) 有限的类别暴露范围，(iii) 多样化的分布变化，以及(iv) 样本内部的重叠变化。我们使用基准数据集评估最新的TTA方法，并在实际测试平台上报告系统级指标。此外，与以往研究不同，我们通过提倡周期性适应而非连续的推理时适应，与设备上的要求保持一致。实验揭示了关键洞察：许多最近的TTA算法在小数据集上表现不佳，无法泛化到未见过的类别，并且依赖于分布变化的多样性和复杂性。BoTTA还报告了设备特定的资源使用情况。例如，仅在512个适应样本的情况下，SHOT可以将准确性提高2.25倍，然而在Raspberry Pi上的峰值内存使用量仅有基准模型的1.08倍。BoTTA为实际受限资源部署中的TTA提供了实用的指导。