LLM2D

摘要

arXiv:2504.19394v2 通告类型: 替换-交叉摘要：大型语言模型（LLMs）已经改变了软件工程，但在物理工程领域的应用仍被广泛探索。本文通过使用RocketBench作为基准，将LLMs连接到高保真火箭仿真，来评估LLMs在火箭设计中的能力。我们测试了模型在两个逐渐复杂的任务上的表现：目标高度优化和精确着陆挑战。我们的研究结果表明，尽管最先进的LLMs展示了强大的基本工程知识，但在面对仿真结果时却难以进行设计迭代，并最终在性能上落后于人类水平。然而，当使用增强学习（RL）进行增强时，我们展示了参数为7B的模型在性能上超过了最先进的基础模型和人类专家。这项研究证明了RL训练的LLMs可以用作复杂工程优化的有效工具，有可能将工程领域扩展到软件开发之外。