LLM2D

摘要

二进制代码分析是安全领域关键任务的基础；因此，构建有效的二进制分析技术比以往任何时候都更加重要。大型语言模型 (LLM) 虽然为源代码任务带来了令人印象深刻的改进，但由于汇编语言的独特挑战而无法直接推广到汇编代码：(1) 汇编语言的信息密度低，以及 (2) 汇编代码中存在多种优化。为了克服这些挑战，这项工作提出了一种分层注意力机制，该机制构建注意力摘要以更有效地捕获语义，并设计对比学习目标来训练 LLM 以学习汇编优化。借助这些技术，这项工作开发了 Nova，这是一种用于汇编代码的生成式 LLM。Nova 在二进制代码反编译方面的性能优于现有技术，Pass@1 和 Pass@10 分别提高了 14.84%–21.58%（绝对百分比改进），并且在最新的二进制代码相似性检测技术方面性能提升高达 6.17% Recall@1，在汇编代码生成和理解任务上都展现出令人鼓舞的能力。