LLM2D
主成分分析在高效检索增强生成中的应用
PCA-RAG: Principal Component Analysis for Efficient Retrieval-Augmented Generation
作者: Arman Khaledian, Amirreza Ghadiridehkordi, Nariman Khaledian
发布日期: 4/14/2025
arXiv ID: oai:arXiv.org:2504.08386v1

摘要

arXiv:2504.08386v1 宣告类型: cross 摘要:检索增强生成(RAG)作为一种将大型语言模型与外部知识源对接的强大范式,已经取得成果,提高了代理响应的精确度。然而,高维度的语言模型嵌入,通常在数百到数千维度之间,会带来存储和延迟方面的可扩展性挑战,尤其是在处理大规模金融文本语料库时更是如此。本文探讨了使用主成分分析(PCA)来减少嵌入维度的方法,从而在不牺牲大量准确性的情况下缓解计算瓶颈。我们使用一个真实世界的数据集,并在全维度嵌入和PCA压缩嵌入下比较了不同的相似性和距离度量。结果显示,将向量从3072维减少到110维,检索操作的速度可提高高达60倍,索引尺寸减少了约28.6倍,相对人工标注的相似性得分,相关性度量仅略有下降。这些发现证明了PCA压缩对于平衡检索准确性和资源效率提供了可行的解决方案,对于Zanista AI的《Newswitch》平台等实时系统尤为重要。最终,我们的研究强调了通过利用经典降维技术来扩展RAG架构在金融和交易等知识密集型应用中的可行性,以优化速度、内存效率和准确性。