LLM2D

摘要

arXiv:2504.05180v1 交叉类型：摘要：尽管许多 EDA 任务已经涉及基于图的数据，现有的 EDA LLM 主要要么将图表示为顺序文本，要么简单地忽略可能有益的数据流图等结构化数据。最近的研究发现，当将图表示为顺序文本时，LLM 的性能会受到影响，在使用额外的图信息时性能显著提升。为了解决这些挑战，我们介绍了一种名为 BRIDGES 的框架，该框架旨在将图模态集成到 EDA 任务的 LLM 中。BRIDGES 结合了一个自动数据生成工作流，将图模态与 LLM 结合的解决方案，以及一个全面的评估套件。首先，我们建立了一个由 LLM 驱动的工作流，生成 RTL 和网表级数据，并将它们转换为具有函数描述的数据流图和网表图。该工作流产生了一个包含超过 500,000 个图实例和超过 15 亿个标记的大规模数据集。其次，我们提出了一种轻量级的跨模态投影器，它可以将图表示编码为文本兼容的提示信息，使 LLM 能够有效地利用图数据而无需进行架构修改。实验结果表明，在多个任务上，包括设计检索、类型预测和函数描述的困惑度方面，与仅基于文本的基线相比，性能提升了 2 倍到 10 倍，且几乎没有计算开销（模型权重增加不到 1%，额外的运行时开销不到 30%）。即使没有进行额外的 LLM 微调，我们的结果也远远优于仅基于文本。我们计划发布 BRIDGES，包括数据集、模型和训练流程。