摘要
arXiv:2408.11053v2 宣布类型: 替换-交叉
摘要:大型语言模型(LLMs)在数字硬件代码生成中的应用是一个新兴领域,大多数LLM主要是在自然语言和软件代码上进行训练。像Verilog这样的硬件代码在训练数据中所占的比例很小,而且很少有硬件基准测试。2023年11月发布的开源VerilogEval基准测试提供了一套一致的框架,用于评估LLM在代码完成任务中的性能。自那时起,商业和开源模型都取得了显著的进步。
在这项工作中,我们使用了自VerilogEval最初发布以来的新商用和开源模型——包括GPT-4o、GPT-4 Turbo、Llama3.1(8B/70B/405B)、Llama3 70B、Mistral Large、DeepSeek Coder(33B和6.7B)、CodeGemma 7B和RTL-Coder——对改进后的VerilogEval基准测试集进行了评估。我们发现最先进的模型取得了可测量的改进:GPT-4o在规格到RTL任务中的通过率达到63%。最近发布且开源的Llama3.1 405B的通过率为58%,几乎与GPT-4o持平,而较小的专门领域RTL-Coder 6.7B模型的通过率为34%。
此外,我们通过自动分类失败情况、引入上下文学习支持,并扩展任务为规格到RTL翻译,增强了VerilogEval的基础设施。我们发现,提示工程对于实现良好的通过率仍然至关重要,并且随着模型和任务的不同而有很大的变化。一个允许提示工程和失败分析的基准基础设施对于持续的模型开发和部署是至关重要的。