LLM2D
基于语义的对比微调:增强具有鉴别性嵌入的多模态恶意软件分类
Semantic-Aware Contrastive Fine-Tuning: Boosting Multimodal Malware Classification with Discriminative Embeddings
作者: Ivan Montoya Sanchez, Shaswata Mitra, Aritran Piplai, Sudip Mittal
发布日期: 5/1/2025
arXiv ID: oai:arXiv.org:2504.21028v1

摘要

arXiv:2504.21028v1 交叉类型公告 摘要:恶意软件变种的快速演变需要强大的分类方法来增强网络安全。尽管大型语言模型(LLMs)在生成帮助家族分类的恶意软件描述方面具有潜力,但它们的实用性受限于语义嵌入的重叠和与二进制行为特征的不一致。我们提出了一种对比微调(CFT)方法,通过基于余弦相似度的目标选择困难负样本来精炼LLM嵌入,使LLM能够区分密切相关的主要安全家族。该方法结合高度相似的负样本以增强辨别力,并结合中等级别的负样本以增加嵌入的多样性,优化精度和泛化能力。在CIC-AndMal-2020和BODMAS数据集上评估,我们精炼的嵌入被集成到一种模型无偏的元学习(MAML)框架中的多模态分类器中,并应用在少量样本设置中。实验表明有显著的改进:我们的方法在CIC-AndMal-2020数据集上仅使用20个样本即可达到63.15%的分类准确率,优于基线方法11到21个百分点,并超越了之前的负样本策略。消融研究证实了基于相似度的选择优于随机采样的优越性,获得了10到23个百分点的增益。此外,微调后的LLM生成了属性感知的描述,能够泛化到未见过的变体,弥合了文本和二进制特征之间的差距。这项工作通过使语义区分更加细致,推动了恶意软件分类的发展,并提供了一个可扩展的框架来适应网络安全挑战。