LLM2D

摘要

arXiv:2502.14045v1 公告类型: cross 摘要：近期在长期时间序列预测方面的进展引入了众多复杂的预测模型，这些模型在性能上持续优于之前发表的架构。然而，这种快速的进步也引发了关于不一致基准测试和报告实践的担忧，这可能削弱这些比较的可靠性。我们的立场强调了从追求越来越复杂的模型转向通过严格的标准化评估方法提升基准测试实践的重要性。为了支持这一论点，我们首先对最流行的基准上的表现最佳的模型进行了全面、详细且可重复的评估，在14个数据集上训练了3,500多个网络。然后，通过综合分析，我们发现实验设置或当前评估指标的微小变化极大地改变了对新发表结果正在推动前沿技术发展的普遍看法。我们的发现表明，需要严格的标准化评估方法，以便做出更有根据的声明，包括可重复的超参数设置和统计检验。