LLM2D

摘要

arXiv:2504.21605v1 交叉类型：cross 摘要：大型语言模型（LLMs）越来越多地作为知识接口使用，但在存在冲突信息的情况下系统地评估其可靠性仍然具有挑战性。我们提出了一种基于RDF的框架，以评估多语言LLM的质量，重点关注知识冲突。我们的方法在德语和英语中捕捉模型在四种不同的上下文条件下（完整信息、不完整信息、冲突信息和无上下文信息）的响应。这种结构化的表示方式使我们能够全面分析知识泄露——即模型优先选择训练数据而不是提供的上下文的错误检测，以及多语言一致性。我们通过一个消防安全领域实验展示了该框架，揭示了上下文优先级和语言特定性能的关键模式，并证明了我们使用的词汇表足以表达在28个问题研究中遇到的所有评估方面。