LLM2D
基于检索增强的大语言模型在表格数据上实现可扩展的在上下文学习
Scalable In-Context Learning on Tabular Data via Retrieval-Augmented Large Language Models
作者: Xumeng Wen, Shun Zheng, Zhen Xu, Yiming Sun, Jiang Bian
发布日期: 2/6/2025
arXiv ID: oai:arXiv.org:2502.03147v1

摘要

arXiv:2502.03147v1 宣传类型: cross 摘要:近期的研究表明,通过后训练定制的大型语言模型(LLMs)可以在表格数据上获得通用的表格上下文学习(TabICL)能力。这些模型能够在不同数据模式和任务领域之间有效迁移。然而,现有的LLM基于的TabICL方法受到LLMs序列长度限制的影响,因为以纯文本形式表示的表格实例会消耗大量的令牌,从而限制了它们在多示例场景下的应用。为了解决这一限制,并且能够扩展任何数据大小的TabICL,我们提出了一种针对表格数据定制的检索增强LLMs。我们的方法结合了一个定制的检索模块,并且包括以检索为指导的LLM指令调优。这使得LLMs能够有效利用更大的数据集,在69个广泛认可的数据集上实现了显著改进的性能,并且展现出了积极的扩展行为。与最先进的表格模型的广泛比较表明,尽管基于LLM的TabICL在整体性能上仍然落后于高度调优的数值模型,但它在有限上下文中揭示了强大的算法、增强了集成多样性,并且在特定数据集上的表现尤为出色。这些独特的特性突显了语言作为一种通用和易用的界面,对于可扩展表格数据学习的潜力。