LLM2D

摘要

arXiv:2502.05098v1 类别: cross 摘要：基于学习的Android恶意软件检测器由于恶意软件变体和新的恶意软件家族引起的自然分布漂移而随着时间的推移而退化。本文系统地研究了使用经验风险最小化（ERM）训练的分类器在面对这种分布变化时所面临的挑战，并将它们的缺陷归因于无法学习稳定的判别性特征的能力。不变学习理论提供了一种有希望的解决方案，通过鼓励模型生成跨越不同类型环境的稳定表示，从而揭示训练集的不稳定性。然而，缺乏先前的环境标签、漂移因素的多样性以及由多样化家庭引起的低质量表示使得这项任务具有挑战性。为了解决这些问题，我们提出了TIF，这是一种用于恶意软件检测的首个时间不变训练框架，旨在增强检测器在时间上学习稳定表示的能力。TIF 根据应用程序观测日期组织环境，以揭示时间上的漂移，并结合专门的多代理对比学习和不变梯度对齐来生成和对齐具有高质量、稳定表示的环境。TIF 可以无缝地集成到任何基于学习的检测器中。在长达十年的数据集上的实验表明，TIF 在特别早的部署阶段表现出色，满足了现实世界的需求，并优于现有方法。