摘要
arXiv:2504.19394v2 通告类型: 替换-交叉
摘要:大型语言模型(LLMs)已经改变了软件工程,但在物理工程领域的应用仍被广泛探索。本文通过使用RocketBench作为基准,将LLMs连接到高保真火箭仿真,来评估LLMs在火箭设计中的能力。我们测试了模型在两个逐渐复杂的任务上的表现:目标高度优化和精确着陆挑战。我们的研究结果表明,尽管最先进的LLMs展示了强大的基本工程知识,但在面对仿真结果时却难以进行设计迭代,并最终在性能上落后于人类水平。然而,当使用增强学习(RL)进行增强时,我们展示了参数为7B的模型在性能上超过了最先进的基础模型和人类专家。这项研究证明了RL训练的LLMs可以用作复杂工程优化的有效工具,有可能将工程领域扩展到软件开发之外。