LLM2D

摘要

arXiv:2410.12311v4 宣布类型：替换交叉摘要：开放域问答系统通常依赖于从大量文本（如网络）检索到的信息来回答问题。然而，这些文本集合中往往包含相互矛盾的信息，且不加选择地依赖这些信息可能导致不真实和不准确的答案。为了了解这一问题的严重性，我们收集了一个由人工注释的数据集，称为矛盾上下文问答（QACC）。我们发现，高达25%的开放域问题，在使用Google搜索检索时，可能会导致矛盾的上下文。我们使用数据集QACC评估并基准测试了三个强大的大型语言模型（LLMs），并展示了它们在有效处理带有矛盾信息的问题方面的局限性。为了探究人类如何处理矛盾的上下文，我们请求注释员为他们选择的正确答案提供解释。我们展示了通过将大型语言模型微调为解释它们的答案，可以为其训练过程引入更丰富的信息，从而引导它们处理矛盾的上下文的过程。