LLM2D

摘要

arXiv:2504.05324v1 交叉公告类型摘要：大型语言模型（LLMs）在语言理解和生成方面表现出色，但在事实准确性方面容易出现幻觉，生成不正确的或缺乏支持的输出。检索增强生成（RAG）系统通过利用外部知识使LLM的回答得到扎根，解决了这一问题。本研究使用三种检索方法来评估检索器的效寸与LLM幻觉减少之间的关系：基于BM25关键词搜索的稀疏检索，使用Sentence Transformers进行语义搜索的密集检索，以及一个提出的混合检索模块。混合模块结合了查询扩展，并通过动态加权的互逆排名融合得分将稀疏检索和密集检索的结果结合在一起。使用HaluBench数据集，该数据集用于问答任务中的幻觉基准测试，我们使用平均精度均值和归一化折扣累积收益等指标评估检索性能，重点关注检索到的前三个文档的相关性。结果显示，混合检索器在相关性分数上表现更好，优于稀疏检索和密集检索。进一步对LLM生成的答案与真实值进行评估，使用诸如准确率、幻觉率和拒绝率等指标发现，混合检索器在错误上的准确率达到最高，幻觉率最低，拒绝率最低。这些发现突显了混合检索器增强检索相关性、降低幻觉率和提高LLM可靠性的能力，强调了利用高级检索技术减轻幻觉并提高响应准确性的关键性。