LLM2D
CodeV:通过多级总结增强LLMs的HDL生成能力
CodeV: Empowering LLMs with HDL Generation through Multi-Level Summarization
作者: Yang Zhao, Di Huang, Chongxiao Li, Pengwei Jin, Muxin Song, Yinan Xu, Ziyuan Nan, Mingju Gao, Tianyun Ma, Lei Qi, Yansong Pan, Zhenxing Zhang, Rui Zhang, Xishan Zhang, Zidong Du, Qi Guo, Xing Hu
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2407.10424v5

摘要

arXiv:2407.10424v5 宣告类型: replace-cross 摘要:处理器设计流程,特别是在硬件描述语言(HDL)如Verilog和Chisel中,是复杂且成本高昂的。虽然近期在大型语言模型(LLMs)方面取得了显著进展,使得在软件语言如Python中的编码任务得到了大幅改善,但在HDL生成方面应用仍受到限制,这主要是由于高质量HDL数据的稀缺性。传统上,为了适应硬件设计的LLMs方法主要依赖于合成的HDL数据集,而这些数据集往往质量较低,即使是像GPT这样的高级LLMs在HDL域的表现也较差。此外,这些方法主要集中在聊天任务和Verilog语言上,限制了它们的应用场景。 在这篇论文中,我们观察到以下几点:(1)从现实世界中收集的HDL代码比LLMs生成的代码质量更高。(2)像GPT-3.5这样的LLMs在归纳总结HDL代码方面表现突出,而不是生成代码。(3)显式的语言标签在数据不足时可以帮助LLMs更好地适应目标语言。基于这些观察,我们提出了一种高效的HDL生成LLM微调管道,该管道结合了多层次归纳总结数据合成过程和一种新颖的Chat-FIM-Tag监督微调方法。该管道增强了从自然语言描述生成HDL代码的能力,并使处理各种任务,如聊天和填补代码片段成为可能。利用这一管道,我们介绍了CodeV系列HDL生成LLMs。其中,CodeV-All不仅具备更广泛的语言能力,即Verilog和Chisel,并且涵盖了更广泛的任务,如聊天和中间填补(FIM),而且还实现了在VerilogEval上的性能与仅在Verilog上微调的CodeV-Verilog相当甚至更好,使它们成为第一个设计用于多场景HDL生成的开源LLMs系列。