LLM2D

摘要

arXiv:2504.20047v1 Announce Type: 横向摘要：嵌入在PDF文件、网页和其他文档格式中的表格数据在政府、工程、科学和商业等众多领域中普遍存在。这些以人为中心的表格（HCTs）具有高商业价值的独特组合，复杂的布局，大规模操作时有限的处理能力，并且有时是获得关键洞察的唯一数据来源。然而，它们的复杂性给传统的数据提取、处理和查询方法带来了重大挑战。尽管当前的解决方案专注于将这些表格转换为关系格式以供SQL查询，但它们在处理HCTs的多样性和复杂性布局方面能力有限，因此不便于查询。本文描述了HCT-QA，这是一个涵盖了数千个表格、自然语言查询和相关答案的广泛基准数据集。我们的数据集包括2,188个真实的HCTs，有9,835个问答对，以及4,679个合成表格，有67,500个问答对。虽然HCTs可以被不同类型的数据查询引擎处理，但在本文中，我们主要关注大型语言模型作为潜在的数据查询引擎，并评估它们处理和查询这些表格的能力。