LLM2D

摘要

arXiv:2505.08445v1 宣告类型: cross 摘要: 大型语言模型在任务性能上表现优异，但往往会产生妄言或依赖过时的知识。检索增强生成（RAG）通过将生成与外部搜索结合起来，弥补了这些方面的不足。我们分析了超参数如何影响RAG系统的速度和质量，涵盖了Chroma和Faiss向量存储、分块策略、交叉编码器再排序以及温度，并评估了六项指标：忠实性、答案准确性、答案相关性、上下文精确度、上下文召回率和答案相似性。Chroma将查询处理速度提高了13%，而Faiss在检索精确度上表现更好，揭示了一个明显的速度-准确性权衡。简单地使用固定长度的分块方法，窗口较小且重叠最少，优于语义分割，并且仍然是最快速的选项。再排序在检索质量上提供了适度的提升，但增加了大约5倍的运行时间，因此其实用性取决于延迟约束。这些结果帮助实践者在调整RAG系统以实现透明且及时响应时平衡计算成本和准确性。最后，我们使用修正的RAG工作流程重新评估了顶级配置，并展示了当模型能够迭代请求额外的证据时，它们的优势仍然存在。我们获得了近乎完美的上下文精确度（99%），这证明了在恰当的超参数组合下，RAG系统可以实现极其高的检索准确性，在涉及检索质量直接影响下游任务性能的应用场景中，这种高精度具有重大意义，例如医疗保健中的临床决策支持。