摘要
arXiv:2504.20047v1 Announce Type: 横向
摘要:嵌入在PDF文件、网页和其他文档格式中的表格数据在政府、工程、科学和商业等众多领域中普遍存在。这些以人为中心的表格(HCTs)具有高商业价值的独特组合,复杂的布局,大规模操作时有限的处理能力,并且有时是获得关键洞察的唯一数据来源。然而,它们的复杂性给传统的数据提取、处理和查询方法带来了重大挑战。尽管当前的解决方案专注于将这些表格转换为关系格式以供SQL查询,但它们在处理HCTs的多样性和复杂性布局方面能力有限,因此不便于查询。本文描述了HCT-QA,这是一个涵盖了数千个表格、自然语言查询和相关答案的广泛基准数据集。我们的数据集包括2,188个真实的HCTs,有9,835个问答对,以及4,679个合成表格,有67,500个问答对。虽然HCTs可以被不同类型的数据查询引擎处理,但在本文中,我们主要关注大型语言模型作为潜在的数据查询引擎,并评估它们处理和查询这些表格的能力。