摘要
近年来,将知识图谱(KGs)与大型语言模型(LLMs)相结合的研究取得了进展,有效提升了LLMs的推理准确性。然而,现有的基准测试主要集中在封闭任务上,在评估更复杂、更贴近实际场景方面存在差距。这种差距也模糊了评估KGs在缓解LLMs幻觉问题方面的潜力。为了填补这一差距,我们引入了OKGQA,一个专门为评估在开放式、现实世界问答场景下增强了KGs的LLMs而设计的新的基准测试。OKGQA旨在通过来自不同类型的问题,密切反映实际应用的复杂性,并结合特定的指标来衡量幻觉的减少和推理能力的增强。为了考虑KGs可能存在不同程度错误的场景,我们进一步提出了另一个实验设置OKGQA-P,以评估当KGs的语义和结构被故意扰乱和污染时,模型的性能。OKGQA旨在(1)探索KGs是否能够在开放式环境下使LLMs更加可靠,以及(2)进行比较分析,以阐明利用KGs来减少LLMs幻觉的方法和未来方向。我们相信,这项研究可以促进更全面的性能比较,并鼓励将KGs与LLMs相结合的持续改进。