摘要
arXiv:2504.01986v1 宣告类型:交叉
摘要:大语言模型(LLM)的迅速进步推动了生成式AI在各种领域的应用,包括电子设计自动化(EDA)。与传统的软件开发不同,EDA 提出了独特的挑战,因为生成的 RTL 代码不仅需要在语法上正确且功能准确,还需要能够被硬件生成器综合,并满足性能、功耗和面积的要求。这些额外的要求引入了现有代码生成基准往往无法捕捉的复杂性,限制了它们在评估 LLM 在 RTL 生成方面的有效性。为了弥补这一差距,我们提出 TuRTLe,这是一种统一的评估框架,旨在系统地评估 LLM 在关键的 RTL 生成任务方面的性能。TuRTLe 整合了多个现有基准,并自动化了评估过程,使我们能够全面评估 LLM 在语法正确性、功能正确性、综合、PPA 优化以及准确行定位方面的性能。使用此框架,我们对一组不同开放的 LLM 进行基准测试,并分析它们在特定于 EDA 的任务中的优势和劣势。结果显示,基于推理的模型,如 DeepSeek R1,在多个评估标准上一直表现出色,但代价是计算开销和推理延迟增加。此外,基础模型在模块完成任务中表现更好,而指令调整模型在规范到 RTL 的任务中表现更佳。