LLM2D
值得信赖的答案,杂乱的数据:缩小领域专家系统中检索增强生成低资源应用的差距
Trustworthy Answers, Messier Data: Bridging the Gap in Low-Resource Retrieval-Augmented Generation for Domain Expert Systems
作者: Nayoung Choi, Grace Byun, Andrew Chung, Ellie S. Paek, Shinsun Lee, Jinho D. Choi
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2502.19596v2

摘要

arXiv:2502.19596v2 公告类型: 修订 摘要:RAG已成为通过减少幻觉提高LLM的关键技术,尤其是在LLM可能缺乏充分固有知识的领域专家系统中。但是,在低资源环境中开发这些系统会带来几个挑战:(1) 处理异构数据源,(2) 优化检索阶段以获得可靠的答案,以及(3) 在多种方面评估生成的答案。为了应对这些挑战,我们介绍了一种数据生成管道,该管道将原始多模态数据转化为结构化语料库和问答对,引入了高级重排序阶段以提高检索精度,并引入了参考匹配算法以增强答案可追溯性。在汽车工程领域应用我们的系统,与非RAG基线相比,在LLM裁判的1-5分量表上,事实准确性提高了1.94分,信息量提高了1.16分,有用性提高了1.67分。这些结果突显了我们在不同方面有效性,具有强大的答案依据和透明性。