LLM2D

摘要

开源代码无处不在。在这种环境下，嵌入式漏洞正以惊人的速度蔓延到下游软件中。虽然此类漏洞通常会被迅速识别和解决，但维护策略不一致可能会导致安全补丁被忽视。事实上，安全补丁可能是“静默的”，即它们并不总是附带全面的安全公告，例如 CVE。这种缺乏透明度使得用户无法察觉可用的安全更新，为攻击者利用未修补的漏洞提供了充足的机会。因此，在安全补丁发布时及时识别它们对于防止 N-day 攻击以及确保稳健和安全的维护实践至关重要。通过 LLMDA，我们提出：（1）利用大型语言模型 (LLM) 来增强补丁信息，并生成代码更改说明；（2）设计一种表示学习方法，探索用于特征组合的代码文本对齐方法；（3）实现基于标签的训练，并使用带标签的指令来指导基于安全相关性的嵌入；（4）依赖概率批量对比学习机制来构建高精度安全补丁识别器。我们在 PatchDB 和 SPI-DB 文献数据集上评估了 LLMDA，结果表明，我们的方法比现有技术有了显著的改进，在 SPI-DB 基准测试中，F 值比 GraphSPD 提高了 20%。