LLM2D

摘要

arXiv:2505.06096v1 说明类型: 新摘要：大型语言模型（LLM）在硬件设计任务方面的局限性，例如生成功能性Verilog代码，促使研究人员利用开放源代码仓库中精心挑选的硬件数据集进行各种微调优化。然而，这些数据集仍然规模有限，并且在再利用时缺乏版权许可检查，这可能导致微调后的LLM侵犯版权。因此，我们提出了一种评估基准来估算Verilog训练的LLM生成受版权保护代码的风险。为了最小化这种风险，我们提供了一个包含超过22万个文件的开源Verilog数据集FreeSet，同时还提供了自动数据集管理框架，以提供更多关于公平使用Verilog数据的保障。然后，我们执行了一个微调框架，包括持续的预训练，从而获得了一个用于Verilog的微调后Llama模型，称为FreeV。我们的结果显示，FreeV在先前作品中表现出最小的版权侵权风险，仅违反了3%的版权。此外，实验结果还显示，与基准模型相比，FreeV在Verilog生成功能上有所改进，ViVerilogEval pass@10得分提高了超过10%。