摘要
arXiv:2504.12268v1 文心一言类型: 交叉学科
摘要: 大型语言模型(LLM)训练和推理的快速扩展推动了其在学术界和工业界的半导体设计中的应用。尽管大多数先前的工作在硬件描述语言(HDL)任务上评估LLM,尤其是Verilog,设计师越来越多地使用高层次综合(HLS)来构建领域特定加速器和复杂硬件系统。然而,用于评估LLM的HLS设计任务的基准和工具仍然稀缺。
为了解决这个问题,我们介绍了HLS-Eval,这是首个用于LLM驱动HLS设计的完整基准和评估框架。HLS-Eval针对两个核心任务:(1) 从自然语言描述生成HLS代码,(2) 执行特定于HLS的代码编辑以优化性能和硬件效率。基准包括94个独一无二的设计,这些设计来自标准HLS基准和新颖的来源。每个案例通过半自动流程生成自然语言描述和配对的测试台,用于C模拟和综合验证,确保每个任务都是“LLM准备好”的。
除了基准之外,HLS-Eval还提供了一个模块化的Python框架,用于自动化并行评估本地和托管的LLM。该框架包括并行评估引擎、直接HLS工具集成以及支持不同LLM交互范式的抽象,从而能够快速原型化新的基准、任务和LLM方法。
我们通过在Vitis HLS上对开源LLM进行基线评估来演示HLS-Eval,跨四个关键指标(可解析性、可编译性、可运行性和可综合性)测量输出,反应了HLS设计的迭代周期。我们还报告了pass@k指标,为更广泛的LLM-for-hardware社区建立了清晰的基线和可重用的基础设施。
所有基准、框架代码和结果均可在https://github.com/stefanpie/hls-eval开源。