LLM2D

摘要

arXiv:2407.10424v5 宣告类型: replace-cross 摘要：处理器设计流程，特别是在硬件描述语言（HDL）如Verilog和Chisel中，是复杂且成本高昂的。虽然近期在大型语言模型（LLMs）方面取得了显著进展，使得在软件语言如Python中的编码任务得到了大幅改善，但在HDL生成方面应用仍受到限制，这主要是由于高质量HDL数据的稀缺性。传统上，为了适应硬件设计的LLMs方法主要依赖于合成的HDL数据集，而这些数据集往往质量较低，即使是像GPT这样的高级LLMs在HDL域的表现也较差。此外，这些方法主要集中在聊天任务和Verilog语言上，限制了它们的应用场景。在这篇论文中，我们观察到以下几点：（1）从现实世界中收集的HDL代码比LLMs生成的代码质量更高。（2）像GPT-3.5这样的LLMs在归纳总结HDL代码方面表现突出，而不是生成代码。（3）显式的语言标签在数据不足时可以帮助LLMs更好地适应目标语言。基于这些观察，我们提出了一种高效的HDL生成LLM微调管道，该管道结合了多层次归纳总结数据合成过程和一种新颖的Chat-FIM-Tag监督微调方法。该管道增强了从自然语言描述生成HDL代码的能力，并使处理各种任务，如聊天和填补代码片段成为可能。利用这一管道，我们介绍了CodeV系列HDL生成LLMs。其中，CodeV-All不仅具备更广泛的语言能力，即Verilog和Chisel，并且涵盖了更广泛的任务，如聊天和中间填补（FIM），而且还实现了在VerilogEval上的性能与仅在Verilog上微调的CodeV-Verilog相当甚至更好，使它们成为第一个设计用于多场景HDL生成的开源LLMs系列。