LLM2D

摘要

arXiv:2504.19667v1 交叉类型：公告摘要：大型语言模型（LLMs）在各种领域展示了卓越的能力，但在需要事实准确性的领域如工业自动化和医疗保健中，却难以应对知识密集型任务。主要限制包括他们倾向于无中生有，缺乏来源追溯性（可追溯性），以及在及时更新知识方面的挑战。将语言模型与知识图谱（GraphRAG）结合使用为克服这些缺陷提供了有希望的途径。然而，一个主要挑战在于如何在一开始创建这样一个知识图谱。在这里，我们提出了一种新的方法，将LLMs与三元知识图谱表示相结合，这种方法通过将相关领域特定的复杂对象与其对应的领域特定概念在文本片段内的相关部分进行连接，构建了一个经过筛选的领域特定概念的本体论以构成初始词汇图，从而进行了概念锚定的预分析。由此，我们的Tripartite-GraphRAG方法实现了：i) 概念特定的信息保留预压缩；ii) 允许形成基于统计的嵌入相似性的概念特定相关性估计；iii) 避免了与连续扩展性相关的常见挑战，如实体解析和去重。通过将知识图谱进行转换，我们将LLM提示的生成视为基于马尔可夫随机场概念的思想的无监督节点分类问题。我们在一个医疗保健用例中对我们的方法进行了评估，涉及给定一组医学概念和临床文献对患者的病史进行多方面的分析。实验表明，它能够优化LLM提示的信息密度、覆盖范围和布局，同时减少提示长度，这可能会降低成本，并提供更一致和可靠的LLM输出。