LLM2D

摘要

arXiv:2407.09025v2 通知类型: 更新摘要：电子表格因其广泛的二维网格、灵活的布局和多样的格式选项而与众不同，这对大型语言模型（LLMs）构成了重大挑战。为应对这一挑战，我们引入了SpreadsheetLLM，这是一种创新的编码方法，旨在释放和优化LLMs在电子表格上的强大理解和推理能力。最初，我们提出了一种基本的序列化方法，结合了单元格地址、值和格式。然而，这种方法受限于LLMs的标记约束，使其在大多数应用场景中不太实用。为应对这一挑战，我们开发了SheetCompressor，这是一种高效的编码框架，能够有效地将电子表格压缩以供LLMs使用。它由三个模块组成：基于结构锚点的压缩、逆索引翻译和数据格式感知聚合。它在电子表格表格检测任务中显著提高了性能，在GPT4的上下文学习环境中，相比基本方法提高了25.6%。此外，使用SheetCompressor微调的LLM具有25倍的平均压缩比，并实现了最先进的78.9%的F1分数，优于现有最佳模型12.3%。最后，我们提出了电子表格链，用于电子表格理解的下游任务，并在新的全面的电子表格问答任务中进行了验证。我们系统地利用电子表格固有的布局和结构，证明了SpreadsheetLLM在各种电子表格任务中都具有很高的有效性。