摘要
arXiv:2408.11053v2 宣布类型: 替换-交叉
摘要:大语言模型(LLMs)在数字硬件代码生成中的应用是一个新兴领域,大多数LLMs主要是在自然语言和软件代码上进行训练。像Verilog这样的硬件代码仅占训练数据的一小部分,而且很少有硬件基准存在。开源的VerilogEval基准于2023年11月发布,为其在代码补全任务上的评估提供了一个一致的框架。此后,无论是商业还是开源模型都取得了显著的发展。
在这项工作中,我们评估了VerilogEval首批发布以来的新商业和开源模型,包括GPT-4o、GPT-4 Turbo、Llama3.1(8B/70B/405B)、Llama3 70B、Mistral Large、DeepSeek Coder(33B和6.7B)、CodeGemma 7B和RTL-Coder,针对改进后的VerilogEval基准套件。我们发现最先进的模型有可测量的进步:GPT-4o在规格到RTL任务上达到了63%的通过率。最近发布的开源Llama3.1 405B达到了58%的通过率,几乎与GPT-4o相当,而较小的领域专用RTL-Coder 6.7B模型则达到了令人印象深刻的34%的通过率。
此外,我们通过自动分类失败、引入上下文学习支持,并将任务扩展到规格到RTL转换,增强了VerilogEval的基础架构。我们发现,良好的通过率对于提示工程而言仍至关重要,并且随着模型和任务的不同而差异很大。一个允许进行提示工程和失败分析的基准基础架构对于持续的模型开发和部署是必不可少的。