摘要
arXiv:2505.07453v1 宣告类型: 新
摘要: 大型语言模型(LLMs)在自然语言任务中表现出色,但对其在表格数据上的推理能力了解较少。先前的分析设计的评估策略未能很好地反映LLMs在表格查询上的实际表现。此外,我们对LLMs在表格输入真实变化方面的鲁棒性了解有限。因此,我们提出:通用的LLMs是否真的能在表格数据上进行推理?我们将关注两个问题:1)通用的LLMs在表格推理能力上是否对现实世界的表格输入特征具有鲁棒性,以及2)我们如何能够现实地评估LLMs在分析性表格查询上的表现?基于最近的表格推理基准测试,我们首先揭示了其多项选择提示评估策略的不足,以及常用的大段自由文本指标,如SacreBleu和BERT-score。我们表明,将LLM作为评判者的过程能提供更可靠的表现洞察,并揭示了LLMs在表格推理方面的显著缺陷。然后,我们扩展了反映实践中三种常见特征的表格输入:1)缺失值,2)重复实体,3)结构变化。实验表明,通用的LLMs在这些变化面前的推理能力受到影响,突出了改进其对真实表格输入的鲁棒性的必要性。