摘要
arXiv:2502.13422v1 交叉类型: cross
摘要: 由于缺乏预先定义的模式和大型表格中存在的噪声,自由格式表格的问答(TableQA)极具挑战性。尽管大型语言模型(LLMs)在TableQA方面显示出潜力,但在处理大型自由格式表格和噪声敏感性方面仍存在问题。为了解决这些挑战,我们提出了一种基于SQL的分解模型TabSD,以增强LLMs处理大型自由格式表格的能力。TabSD生成SQL查询以指导表格分解、去除噪声,并处理子表格以更好地生成答案。此外,SQL Verifier对SQL输出进行细化以提高分解准确性。我们引入了两个包含大型自由格式表格的TableQA数据集SLQA和SEQA,其中仅包含大型自由格式表格,并将公开提供。在四个基准数据集上的实验结果表明,TABSD分别在准确性上优于现有的最佳基线模型23.07%、2.84%、23.24%和9.32%,突显了其在处理大型和嘈杂的自由格式表格方面的有效性。