摘要
arXiv:2504.02111v1 通知类型: 新
摘要: 本研究探讨了在系统引入输入干扰的情况下,大型语言模型(LLMs)在数学问题解决任务中的推理稳健性。使用GSM8K数据集作为受控测试平台,我们评估了当前最先进的模型在面对四类提示干扰时保持逻辑一致性和正确性的能力:无关背景、病态指令、事实相关但不重要的背景,以及后两者组合。我们在十三个开源和封闭源LLMs上进行的实验表明,引入模型上下文窗口中的无关背景显著降低了性能,这表明区分必要和无关细节仍然是一个紧迫的挑战。令人惊讶的是,性能下降对所需推理步骤的数量(作为推理任务复杂性的度量)的敏感性相对较低,并且与模型规模之间没有严格的关联。此外,我们观察到某些干扰无意中触发了类似逐步推理的行为,即使没有明确的提示也是如此。我们的研究结果突显了当前LLMs中的关键漏洞,并强调了提高对嘈杂、误导性和语境密集输入的稳健性的需要,为在实际应用中更强大和可靠的推理铺平了道路。