LLM2D

摘要

arXiv:2504.05607v1 类型：交叉摘要：提取式阅读理解系统旨在定位给定文本内的正确答案。然而，确保这些模型在回答问题时保持高准确率的同时，可靠地识别无法回答的问题查询依然是一大挑战。尽管在阅读理解领域的大语言模型（LLMs）方面取得了显著进展，这一问题依然至关重要，尤其是在支持的上下文长度不断增加的情况下。为应对这一挑战，我们提出了一种基于多代理协作框架的创新数据增强方法。与传统的需要大量人工标注的方法（如SQuAD 2.0数据集）不同，我们的方法自主生成基于证据的问题-答案对，并系统性地构建无法回答的问题。利用这种方法，我们开发了FactGuard-Bench数据集，其中包括25,220例可回答与不可回答的问题情景，上下文长度从8K到128K不等。在七个流行的LLM上进行的实验评估表明，即使是最先进的模型也只能达到61.79%的整体准确率。此外，我们强调模型能够推理不可回答的问题的重要性，以避免生成看似正确但实际上错误的答案。通过在多代理协作框架内实施高效的数据选择和生成，我们的方法显著降低了传统的手动标注高成本，并为LLM的训练和优化提供了宝贵的见解。