LLM2D

摘要

近年来，语言模型 (LM) 在处理表格数据的推理能力方面取得了显著进步，主要得益于通过程序辅助机制来操纵和分析表格。然而，这些方法通常需要将整个表格作为输入，由于位置偏差或上下文长度限制，导致可扩展性挑战。为了应对这些挑战，我们引入了 TableRAG，一个专为基于 LM 的表格理解而设计的检索增强生成 (RAG) 框架。TableRAG 利用查询扩展结合模式和单元格检索，在将信息提供给 LM 之前，精准定位关键信息。这使得数据编码更高效，检索更精确，显著减少了提示长度，并减轻了信息丢失。我们从 Arcade 和 BIRD-SQL 数据集开发了两个新的百万令牌基准，以全面评估 TableRAG 在规模上的有效性。我们的结果表明，TableRAG 的检索设计实现了最高的检索质量，从而在大型表格理解方面取得了新的最先进性能。