LLM2D

摘要

arXiv:2502.13069v1 宣告类型: 新摘要: 随着人工智能代理被越来越多地部署以自动执行任务，这些代理往往基于含糊不清和不明确的用户指令。做出不必要的假设和未能提出澄清问题会导致性能低下、因工具误用而产生的安全风险以及计算资源的浪费。在这项工作中，我们研究了大规模语言模型（LLM）代理在交互式代码生成场景中处理含糊指令的能力，通过评估专有模型和开源权重模型在三个关键步骤中的表现：(a) 利用互动性在含糊情境下提高性能，(b) 检测含糊性，以及(c) 提出针对性的问题。我们的研究发现，模型难以区分具体说明和不具体说明的指令。然而，当模型在不具体说明的输入上进行互动时，它们能够有效地从用户那里获取关键信息，从而显著提高性能，并强调有效互动的价值。我们的研究突显了当前最先进的模型在处理复杂软件工程任务中的含糊性方面的关键缺口，并将评估结构化为不同的步骤，以促进有针对性的改进。