LLM2D

摘要

arXiv:2410.08085v3 替换-交叉摘要：近期将知识图谱（KGs）集成到大型语言模型（LLMs）中的工作已经取得了有望提高推理准确性的改进。然而，当前的基准主要集中在封闭式任务上，未能评估更复杂的现实场景。这一差距也模糊了知识图谱在减轻大型语言模型幻觉问题方面的潜力评估。为了填补这一差距，我们引入了OKGQA，这是一个专门为评估增强知识图谱的大型语言模型在开放式的、现实世界的问题回答场景中的表现的新基准。OKGQA 设计时考虑了不同类型问题的复杂性，并引入了特定的指标来衡量幻觉比例和推理能力的增强。为考虑知识图谱可能存在不同错误水平的情况，我们还提出了 OKGQA-P 的基准变体，以评估在故意扰乱和污染知识图谱的意义和结构后模型的表现。OKGQA 目标在于：(1) 探索知识图谱在开放环境下是否能使大型语言模型更加可信，(2) 进行对比分析以揭示方法设计的启示。我们认为这项研究可以促进一个更全面的表现比较，并鼓励持续改进将知识图谱与大型语言模型集成，以减少幻觉。