LLM2D

摘要

arXiv:2502.03147v1 宣传类型: cross 摘要：近期的研究表明，通过后训练定制的大型语言模型（LLMs）可以在表格数据上获得通用的表格上下文学习（TabICL）能力。这些模型能够在不同数据模式和任务领域之间有效迁移。然而，现有的LLM基于的TabICL方法受到LLMs序列长度限制的影响，因为以纯文本形式表示的表格实例会消耗大量的令牌，从而限制了它们在多示例场景下的应用。为了解决这一限制，并且能够扩展任何数据大小的TabICL，我们提出了一种针对表格数据定制的检索增强LLMs。我们的方法结合了一个定制的检索模块，并且包括以检索为指导的LLM指令调优。这使得LLMs能够有效利用更大的数据集，在69个广泛认可的数据集上实现了显著改进的性能，并且展现出了积极的扩展行为。与最先进的表格模型的广泛比较表明，尽管基于LLM的TabICL在整体性能上仍然落后于高度调优的数值模型，但它在有限上下文中揭示了强大的算法、增强了集成多样性，并且在特定数据集上的表现尤为出色。这些独特的特性突显了语言作为一种通用和易用的界面，对于可扩展表格数据学习的潜力。