摘要
arXiv:2405.08460v3 宣布类型: replace-cross
摘要:大型语言模型(LLMs)的快速发展促使开发出了考虑时间动态特性的基准测试,然而,由于语言和信息的固有动态性,人们仍然不完全理解这些模型能否有效地跨时间上下文进行泛化。本文介绍了LLMs中时间泛化的概念,包括过去和未来泛化中的偏差。然后,我们介绍了FreshBench,这是一个新的评估框架,采用新颖的文本和事件预测来评估LLMs的时间适应性,确保评估过程不受数据泄漏和主观偏见的影响。实验显示了显著的时间偏差和随着时间的推移性能下降。我们的发现表明,尽管强大的模型在初期表现更优,但在未来泛化中下降速度更快。此外,强大的开源模型在长期内的适应性优于其闭源对应物。代码可在 https://github.com/FreedomIntelligence/FreshBench 获取。