LLM2D

摘要

arXiv:2501.17183v2 Announce Type: replace-cross 摘要：航空制造对技术参数的精确度要求极高。大型语言模型（LLMs），如GPT-4和Qwen，在自然语言处理方面的出色表现引发了业界对其在工艺设计、材料选择和工具信息检索等任务中的应用兴趣。然而，LLMs在专业领域容易生成“幻觉”，产生不准确或虚假信息，这会对航空产品质量和飞行安全造成重大风险。本文介绍了一套针对航空制造中LLMs的评估指标，旨在通过分析其在基于专业知识问题的回答中表现的准确性来进行评估。首先，通过对经典航空制造教科书和指南进行深入文本分析来提取关键信息。随后，利用LLM生成技术，精心构建多个具有不同难度的多项选择题，其中包含多个正确答案。接着，采用不同的LLM模型来回答这些问题，并记录其准确性。实验结果表明，LLMs在航空专业知识方面的能力亟待提高。本研究为LLMs在航空制造中的应用提供了理论基础和实用指导，填补了该领域的关键空白。