LLM2D

摘要

arXiv:2504.01986v1 宣告类型：交叉摘要：大语言模型（LLM）的迅速进步推动了生成式AI在各种领域的应用，包括电子设计自动化（EDA）。与传统的软件开发不同，EDA 提出了独特的挑战，因为生成的 RTL 代码不仅需要在语法上正确且功能准确，还需要能够被硬件生成器综合，并满足性能、功耗和面积的要求。这些额外的要求引入了现有代码生成基准往往无法捕捉的复杂性，限制了它们在评估 LLM 在 RTL 生成方面的有效性。为了弥补这一差距，我们提出 TuRTLe，这是一种统一的评估框架，旨在系统地评估 LLM 在关键的 RTL 生成任务方面的性能。TuRTLe 整合了多个现有基准，并自动化了评估过程，使我们能够全面评估 LLM 在语法正确性、功能正确性、综合、PPA 优化以及准确行定位方面的性能。使用此框架，我们对一组不同开放的 LLM 进行基准测试，并分析它们在特定于 EDA 的任务中的优势和劣势。结果显示，基于推理的模型，如 DeepSeek R1，在多个评估标准上一直表现出色，但代价是计算开销和推理延迟增加。此外，基础模型在模块完成任务中表现更好，而指令调整模型在规范到 RTL 的任务中表现更佳。