LLM2D
基于知识的语言模型一致性测试
Knowledge-based Consistency Testing of Large Language Models
作者: Sai Sathiesh Rajan, Ezekiel Soremekun, Sudipta Chattopadhyay
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2407.12830v2

摘要

在本研究中,我们系统地揭示并量化了大型语言模型(LLM)的不一致性和知识差距。具体而言,我们提出了一种自动化测试框架(称为 KonTest),该框架利用知识图谱构建测试用例。KonTest 通过结合语义等效查询和测试预言(变形或本体预言)来探测和衡量 LLM 对世界知识的不一致性。KonTest 进一步通过加权 LLM 模型集成来缓解知识差距。使用四种最先进的 LLM(Falcon、Gemini、GPT3.5 和 Llama2),我们表明 KonTest 生成了 19.2% 的错误诱导输入(9979 个测试输入中的 1917 个错误)。它还揭示了所有测试 LLM 中 16.5% 的知识差距。受 KonTest 测试套件启发的缓解方法将 LLM 知识差距降低了 32.48%。我们的消融研究进一步表明,GPT3.5 不适合基于知识的一致性测试,因为它在知识构建方面的有效性仅为 60%-68%。