LLM2D
TableRAG:利用语言模型进行百万级词表的理解
TableRAG: Million-Token Table Understanding with Language Models
作者: Si-An Chen, Lesly Miculicich, Julian Martin Eisenschlos, Zifeng Wang, Zilong Wang, Yanfei Chen, Yasuhisa Fujii, Hsuan-Tien Lin, Chen-Yu Lee, Tomas Pfister
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2410.04739v1

摘要

近年来,语言模型 (LM) 在处理表格数据的推理能力方面取得了显著进步,主要得益于通过程序辅助机制来操纵和分析表格。然而,这些方法通常需要将整个表格作为输入,由于位置偏差或上下文长度限制,导致可扩展性挑战。为了应对这些挑战,我们引入了 TableRAG,一个专为基于 LM 的表格理解而设计的检索增强生成 (RAG) 框架。TableRAG 利用查询扩展结合模式和单元格检索,在将信息提供给 LM 之前,精准定位关键信息。这使得数据编码更高效,检索更精确,显著减少了提示长度,并减轻了信息丢失。我们从 Arcade 和 BIRD-SQL 数据集开发了两个新的百万令牌基准,以全面评估 TableRAG 在规模上的有效性。我们的结果表明,TableRAG 的检索设计实现了最高的检索质量,从而在大型表格理解方面取得了新的最先进性能。