LLM2D
Nova:基于分层注意力和对比学习的汇编代码生成语言模型
Nova: Generative Language Models for Assembly Code with Hierarchical Attention and Contrastive Learning
作者: Nan Jiang, Chengxiao Wang, Kevin Liu, Xiangzhe Xu, Lin Tan, Xiangyu Zhang, Petr Babkin
发布日期: 10/23/2024
arXiv ID: oai:arXiv.org:2311.13721v5

摘要

二进制代码分析是安全领域关键任务的基础;因此,构建有效的二进制分析技术比以往任何时候都更加重要。大型语言模型 (LLM) 虽然为源代码任务带来了令人印象深刻的改进,但由于汇编语言的独特挑战而无法直接推广到汇编代码:(1) 汇编语言的信息密度低,以及 (2) 汇编代码中存在多种优化。为了克服这些挑战,这项工作提出了一种分层注意力机制,该机制构建注意力摘要以更有效地捕获语义,并设计对比学习目标来训练 LLM 以学习汇编优化。借助这些技术,这项工作开发了 Nova,这是一种用于汇编代码的生成式 LLM。Nova 在二进制代码反编译方面的性能优于现有技术,Pass@1 和 Pass@10 分别提高了 14.84%–21.58%(绝对百分比改进),并且在最新的二进制代码相似性检测技术方面性能提升高达 6.17% Recall@1,在汇编代码生成和理解任务上都展现出令人鼓舞的能力。