摘要
arXiv:2407.10424v5 宣告类型: replace-cross
摘要:处理器设计流程,特别是在硬件描述语言(HDL)如Verilog和Chisel中,是复杂且成本高昂的。虽然近期在大型语言模型(LLMs)方面取得了显著进展,使得在软件语言如Python中的编码任务得到了大幅改善,但在HDL生成方面应用仍受到限制,这主要是由于高质量HDL数据的稀缺性。传统上,为了适应硬件设计的LLMs方法主要依赖于合成的HDL数据集,而这些数据集往往质量较低,即使是像GPT这样的高级LLMs在HDL域的表现也较差。此外,这些方法主要集中在聊天任务和Verilog语言上,限制了它们的应用场景。
在这篇论文中,我们观察到以下几点:(1)从现实世界中收集的HDL代码比LLMs生成的代码质量更高。(2)像GPT-3.5这样的LLMs在归纳总结HDL代码方面表现突出,而不是生成代码。(3)显式的语言标签在数据不足时可以帮助LLMs更好地适应目标语言。基于这些观察,我们提出了一种高效的HDL生成LLM微调管道,该管道结合了多层次归纳总结数据合成过程和一种新颖的Chat-FIM-Tag监督微调方法。该管道增强了从自然语言描述生成HDL代码的能力,并使处理各种任务,如聊天和填补代码片段成为可能。利用这一管道,我们介绍了CodeV系列HDL生成LLMs。其中,CodeV-All不仅具备更广泛的语言能力,即Verilog和Chisel,并且涵盖了更广泛的任务,如聊天和中间填补(FIM),而且还实现了在VerilogEval上的性能与仅在Verilog上微调的CodeV-Verilog相当甚至更好,使它们成为第一个设计用于多场景HDL生成的开源LLMs系列。