LLM2D

摘要

arXiv:2409.14683v1 公告类型: 交叉摘要: 近年来，以ColBERT为首的多向量检索方法在神经信息检索领域逐渐成为一种流行的方法。通过在词级别而非文档级别存储表示，这些方法在跨领域设置中展示了非常强大的检索性能。然而，存储大量相关向量所需的存储和内存需求仍然是一个重要的缺点，阻碍了实际应用。本文介绍了一种基于聚类的词池化方法，以积极减少需要存储的向量数量。该方法可以将ColBERT索引的空间和内存占用减少50%，且几乎不影响检索性能。该方法还允许进一步减少，将向量数量减少66%至75%，在绝大多数数据集上性能下降保持在5%以下。重要的是，这种方法不需要架构更改或查询时处理，并且可以作为简单的插件在索引过程中与任何类似ColBERT的模型一起使用。