LLM2D
CIRCUIT:LLMs进行电路解释和推理能力基准测试
CIRCUIT: A Benchmark for Circuit Interpretation and Reasoning Capabilities of LLMs
作者: Lejla Skelic, Yan Xu, Matthew Cox, Wenjie Lu, Tao Yu, Ruonan Han
发布日期: 2/13/2025
arXiv ID: oai:arXiv.org:2502.07980v1

摘要

arXiv:2502.07980v1 Announce Type: cross 摘要:大型语言模型(LLMs)在模拟电路设计中的作用尚未得到充分探索,这种设计可以从超越传统优化技术的基于推理的方法中受益。特别是,尽管它们越来越受到关注,但目前还没有评估LLMs在电路方面推理能力的基准。因此,我们创建了CIRCUIT数据集,包含510个问题-答案对,涵盖了各种与模拟电路相关的主题。在我们数据集上的最优模型GPT-4o在最后的数值答案评估中达到了48.04%的准确率。为了评估我们数据集上LLMs的稳健性,我们引入了一个独特的功能,通过将问题分组为单元测试,使评估类似于单元测试。在这种情况下,GPT-4o只能通过27.45%的单元测试,这强调了最先进的LLMs仍然难以理解电路,因为这需要多级推理,尤其是在涉及电路拓扑时。这一针对电路的特定基准突显了LLMs的局限性,为推进它们在模拟集成电路设计中的应用提供了有价值的见解。