LLM2D

摘要

arXiv:2405.08460v3 宣布类型: replace-cross 摘要：大型语言模型（LLMs）的快速发展促使开发出了考虑时间动态特性的基准测试，然而，由于语言和信息的固有动态性，人们仍然不完全理解这些模型能否有效地跨时间上下文进行泛化。本文介绍了LLMs中时间泛化的概念，包括过去和未来泛化中的偏差。然后，我们介绍了FreshBench，这是一个新的评估框架，采用新颖的文本和事件预测来评估LLMs的时间适应性，确保评估过程不受数据泄漏和主观偏见的影响。实验显示了显著的时间偏差和随着时间的推移性能下降。我们的发现表明，尽管强大的模型在初期表现更优，但在未来泛化中下降速度更快。此外，强大的开源模型在长期内的适应性优于其闭源对应物。代码可在 https://github.com/FreedomIntelligence/FreshBench 获取。