LLM2D

摘要

arXiv:2505.07453v1 宣告类型: 新摘要: 大型语言模型（LLMs）在自然语言任务中表现出色，但对其在表格数据上的推理能力了解较少。先前的分析设计的评估策略未能很好地反映LLMs在表格查询上的实际表现。此外，我们对LLMs在表格输入真实变化方面的鲁棒性了解有限。因此，我们提出：通用的LLMs是否真的能在表格数据上进行推理？我们将关注两个问题：1）通用的LLMs在表格推理能力上是否对现实世界的表格输入特征具有鲁棒性，以及2）我们如何能够现实地评估LLMs在分析性表格查询上的表现？基于最近的表格推理基准测试，我们首先揭示了其多项选择提示评估策略的不足，以及常用的大段自由文本指标，如SacreBleu和BERT-score。我们表明，将LLM作为评判者的过程能提供更可靠的表现洞察，并揭示了LLMs在表格推理方面的显著缺陷。然后，我们扩展了反映实践中三种常见特征的表格输入：1）缺失值，2）重复实体，3）结构变化。实验表明，通用的LLMs在这些变化面前的推理能力受到影响，突出了改进其对真实表格输入的鲁棒性的必要性。