LLM2D

摘要

在本研究中，我们系统地揭示并量化了大型语言模型（LLM）的不一致性和知识差距。具体而言，我们提出了一种自动化测试框架（称为 KonTest），该框架利用知识图谱构建测试用例。KonTest 通过结合语义等效查询和测试预言（变形或本体预言）来探测和衡量 LLM 对世界知识的不一致性。KonTest 进一步通过加权 LLM 模型集成来缓解知识差距。使用四种最先进的 LLM（Falcon、Gemini、GPT3.5 和 Llama2），我们表明 KonTest 生成了 19.2% 的错误诱导输入（9979 个测试输入中的 1917 个错误）。它还揭示了所有测试 LLM 中 16.5% 的知识差距。受 KonTest 测试套件启发的缓解方法将 LLM 知识差距降低了 32.48%。我们的消融研究进一步表明，GPT3.5 不适合基于知识的一致性测试，因为它在知识构建方面的有效性仅为 60%-68%。