LLM2D

摘要

大型语言模型（LLMs）从不同时间戳收集的大量数据快照中获取知识。然后，通常使用静态基准评估它们的知识。然而，事实知识通常会随时间发生变化，而静态基准无法解决这些情况。我们提出了一种方法，使用维基数据（一个公开可用的最新知识图）动态评估 LLMs 中的知识及其对时间的敏感性。我们评估了 24 个私有和开源 LLMs 的时间敏感知识，以及四种编辑方法在更新过时事实方面的有效性。我们的结果表明：1）过时是一个跨越最先进 LLMs 的关键问题；2）LLMs 在使用略微不同的问题提示进行提示时会输出不一致的答案；3）最先进的知识编辑算法的性能非常有限，因为它们无法减少过时和输出不一致的情况。