LLM2D

摘要

arXiv:2504.08386v1 宣告类型: cross 摘要：检索增强生成（RAG）作为一种将大型语言模型与外部知识源对接的强大范式，已经取得成果，提高了代理响应的精确度。然而，高维度的语言模型嵌入，通常在数百到数千维度之间，会带来存储和延迟方面的可扩展性挑战，尤其是在处理大规模金融文本语料库时更是如此。本文探讨了使用主成分分析（PCA）来减少嵌入维度的方法，从而在不牺牲大量准确性的情况下缓解计算瓶颈。我们使用一个真实世界的数据集，并在全维度嵌入和PCA压缩嵌入下比较了不同的相似性和距离度量。结果显示，将向量从3072维减少到110维，检索操作的速度可提高高达60倍，索引尺寸减少了约28.6倍，相对人工标注的相似性得分，相关性度量仅略有下降。这些发现证明了PCA压缩对于平衡检索准确性和资源效率提供了可行的解决方案，对于Zanista AI的《Newswitch》平台等实时系统尤为重要。最终，我们的研究强调了通过利用经典降维技术来扩展RAG架构在金融和交易等知识密集型应用中的可行性，以优化速度、内存效率和准确性。