摘要
arXiv:2407.09025v2 通知类型: 更新
摘要:电子表格因其广泛的二维网格、灵活的布局和多样的格式选项而与众不同,这对大型语言模型(LLMs)构成了重大挑战。为应对这一挑战,我们引入了SpreadsheetLLM,这是一种创新的编码方法,旨在释放和优化LLMs在电子表格上的强大理解和推理能力。最初,我们提出了一种基本的序列化方法,结合了单元格地址、值和格式。然而,这种方法受限于LLMs的标记约束,使其在大多数应用场景中不太实用。为应对这一挑战,我们开发了SheetCompressor,这是一种高效的编码框架,能够有效地将电子表格压缩以供LLMs使用。它由三个模块组成:基于结构锚点的压缩、逆索引翻译和数据格式感知聚合。它在电子表格表格检测任务中显著提高了性能,在GPT4的上下文学习环境中,相比基本方法提高了25.6%。此外,使用SheetCompressor微调的LLM具有25倍的平均压缩比,并实现了最先进的78.9%的F1分数,优于现有最佳模型12.3%。最后,我们提出了电子表格链,用于电子表格理解的下游任务,并在新的全面的电子表格问答任务中进行了验证。我们系统地利用电子表格固有的布局和结构,证明了SpreadsheetLLM在各种电子表格任务中都具有很高的有效性。