摘要
arXiv:2504.05258v1 类型: cross
摘要:大型语言模型(LLMs)已成为生成连贯文本、理解上下文和执行推理任务的强大工具。然而,它们在处理时间推理方面存在困难,这需要处理与事件序列、持续时间以及跨时间关系相关的时间信息。这些能力对于问答、调度和历史分析等应用至关重要。在本文中,我们介绍了TISER,这是一种新颖的框架,通过结合时间轴构建和迭代自我反思的多阶段过程来增强LLMs的时间推理能力。我们的方法利用测试时扩增来延长推理轨迹的长度,从而使模型能够更有效地捕捉复杂的时间依赖性。这种策略不仅提高了推理准确性,还改善了推理过程的可追溯性。实验结果表明,TISER在多个基准测试中表现出最先进的性能,包括在离分布测试集上的表现,并揭示了TISER使较小的开源模型在具有挑战性的时间推理任务中超越了较大的封闭权重模型。