LLM2D

摘要

arXiv:2503.21735v1 宣布类型: cross 摘要：确保软件发布的可靠性和有效性至关重要，特别是在汽车系统等安全关键领域。精确分析发布的验证数据，这些数据通常以表格形式呈现，对这一过程至关重要。然而，依赖于手动分析大量测试数据集和验证指标的传统方法容易导致延迟和高成本。大语言模型（LLMs）提供了一种有希望的替代方案，但在分析推理、上下文理解、处理超出范围的查询以及一致处理结构化测试数据方面面临挑战；这些限制阻碍了它们在安全关键场景中的直接应用。本文介绍了GateLens，这是一种基于LLM的工具，用于分析汽车领域的表格数据。GateLens将自然语言查询转换为关系代数（RA）表达式，然后生成优化的Python代码。在基准数据集上，GateLens的性能优于基线系统，F1分数更高，并且在处理复杂和模糊查询时更加稳健。消融研究证实了RA模块的关键作用，如果没有这个模块，性能会急剧下降。工业评估表明，GateLens将分析时间缩短了80%以上，同时保持了高准确性和可靠性。正如所展示的结果所示，GateLens在不依赖少样本示例的情况下实现了高性能，并展示了其在各种查询类型中的强大泛化能力，这些查询类型来自不同公司的角色。在与一家汽车公司合作伙伴部署GateLens后的洞察提供了实用指导，以整合AI到关键工作流中，例如发布验证。结果表明，通过自动化测试结果分析，GateLens能够提供更快、更明智和更可靠的发布决策，从而促进汽车系统中的软件可扩展性和可靠性。