摘要
arXiv:2504.07646v1 大概类型: cross
摘要:大型语言模型(LLMs)在处理训练期间未出现的数据的时序推理任务方面的适用性仍然是一个待探索的领域。本文聚焦于此主题,重点关注结构化和半结构化的匿名数据。我们不仅开发了一个直接的LLM管道,还比较了多种方法并进行了深入分析。我们识别并研究了自然语言中十七种常见的时序推理任务,重点关注它们的算法组件。为了评估LLM的性能,我们创建了《时序推理和回答能力数据集》(RATA),该数据集包括半结构化的匿名数据,以确保依赖推理而非先验知识。我们比较了几种方法,包括最先进的技术,如思维树、自我反思和代码执行,这些方法都针对这一场景进行了调优。我们的结果表明,实现可扩展且可靠的解决方案需要的不仅仅是一个独立的LLM,强调了集成方法的需求。