摘要
大型语言模型(LLMs)在大量语料库上进行预训练,并在众多通用自然语言处理(NLP)任务中表现出色,例如问答(QA)。尽管它们拥有先进的语言能力,但在处理特定领域和知识密集型任务时,LLMs 会出现幻觉、知识截断和缺乏知识归属等问题。此外,将 LLMs 的内在知识微调到高度特定的领域是一个昂贵且耗时的过程。检索增强生成(RAG)过程最近出现,它能够通过将 LLM 响应引用到预定的本体来优化 LLM 响应。研究表明,使用知识图(KG)本体进行 RAG 可以提高 QA 准确性,因为它考虑了以结构化方式保留信息的相关子图。在本文中,我们介绍了 SMART-SLIC,一个高度特定领域的 LLM 框架,它将 RAG 与 KG 和一个存储事实特定领域信息的向量存储库 (VS) 集成在一起。重要的是,为了避免 KG 中出现幻觉,我们构建了这些高度特定领域的 KG 和 VS,没有使用 LLMs,而是通过 NLP、数据挖掘和具有自动模型选择的非负张量分解。将我们的 RAG 与特定领域的 (i) KG(包含结构化信息)和 (ii) VS(包含非结构化信息)相结合,可以开发特定领域的聊天机器人,这些聊天机器人可以归属信息来源,减轻幻觉,减少微调的需要,并在高度特定领域的问答任务中表现出色。我们将 SMART-SLIC 与思维链提示代理相结合。该框架的设计可推广到适应任何特定或专门的领域。在本文中,我们展示了我们的框架在恶意软件分析和异常检测的科学出版物语料库上的问答能力。