LLM2D

摘要

arXiv:2502.13422v1 交叉类型: cross 摘要: 由于缺乏预先定义的模式和大型表格中存在的噪声，自由格式表格的问答（TableQA）极具挑战性。尽管大型语言模型（LLMs）在TableQA方面显示出潜力，但在处理大型自由格式表格和噪声敏感性方面仍存在问题。为了解决这些挑战，我们提出了一种基于SQL的分解模型TabSD，以增强LLMs处理大型自由格式表格的能力。TabSD生成SQL查询以指导表格分解、去除噪声，并处理子表格以更好地生成答案。此外，SQL Verifier对SQL输出进行细化以提高分解准确性。我们引入了两个包含大型自由格式表格的TableQA数据集SLQA和SEQA，其中仅包含大型自由格式表格，并将公开提供。在四个基准数据集上的实验结果表明，TABSD分别在准确性上优于现有的最佳基线模型23.07%、2.84%、23.24%和9.32%，突显了其在处理大型和嘈杂的自由格式表格方面的有效性。