LLM2D

摘要

arXiv:2503.01776v3 通知类型: 替换-交叉摘要：许多大规模系统依赖高质量的深度表示（嵌入）来促进诸如检索、搜索和生成建模等任务。Matryoshka Representation Learning (MRL) 最近作为自适应嵌入长度的解决方案出现，但需要重新训练整个模型，并且在较短的长度下表现出明显的性能下降。在本文中，我们展示了稀疏编码为实现自适应表示提供了一种具有最低开销和更高保真的有吸引力的替代方案。我们提出了 Contrastive Sparse Representation (CSR)，该方法将预训练的嵌入稀疏化为高维但选择性激活的功能空间。通过利用轻量级自动编码和任务感知对比目标，CSR 保留了语义质量的同时，允许在不同稀疏级别进行灵活且成本效益高的推理。在图像、文本和多模态基准上的广泛实验表明，与 MRL 相比，CSR 在准确性和检索速度方面表现更佳，通常是显著的 margin，同时还将训练时间缩短到 MRL 所需时间的一小部分。我们的结果确立了稀疏编码作为一种强有力的范式，用于效率和保真度都至关重要的实际应用场景中的自适应表示学习。代码可在 https://github.com/neilwen987/CSR_Adaptive_Repr取得。