LLM2D
你的大语言模型过时了吗?对时间泛化的深入探究
Is Your LLM Outdated? A Deep Look at Temporal Generalization
作者: Chenghao Zhu, Nuo Chen, Yufei Gao, Yunyi Zhang, Prayag Tiwari, Benyou Wang
发布日期: 4/3/2025
arXiv ID: oai:arXiv.org:2405.08460v3

摘要

arXiv:2405.08460v3 宣布类型: replace-cross 摘要:大型语言模型(LLMs)的快速发展促使开发出了考虑时间动态特性的基准测试,然而,由于语言和信息的固有动态性,人们仍然不完全理解这些模型能否有效地跨时间上下文进行泛化。本文介绍了LLMs中时间泛化的概念,包括过去和未来泛化中的偏差。然后,我们介绍了FreshBench,这是一个新的评估框架,采用新颖的文本和事件预测来评估LLMs的时间适应性,确保评估过程不受数据泄漏和主观偏见的影响。实验显示了显著的时间偏差和随着时间的推移性能下降。我们的发现表明,尽管强大的模型在初期表现更优,但在未来泛化中下降速度更快。此外,强大的开源模型在长期内的适应性优于其闭源对应物。代码可在 https://github.com/FreedomIntelligence/FreshBench 获取。