LLM2D
多向量检索:法律文档的参考嵌入和内容嵌入
Poly-Vector Retrieval: Reference and Content Embeddings for Legal Documents
作者: Jo\~ao Alberto de Oliveira Lima
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.10508v1

摘要

arXiv:2504.10508v1 交叉类型 摘要:检索增强生成(RAG)已成为通过将大规模语言模型(LLMs)与检索机制结合使用来生成上下文准确答案的有效范式。然而,在法律背景下,用户经常通过标签或昵称(例如,《宪法》第5条或《消费者保护法(CP法)》)而不是通过其内容来引用规范,这给依赖于纯语义文本嵌入的传统RAG方法带来了挑战。此外,法律文本本身高度依赖于明确的交叉引用(例如,“根据第34条”),这些引用作为指针发挥着作用。这两种情况给依赖于纯语义文本嵌入的传统RAG方法带来了挑战,常常无法检索到所需引用的内容。本文介绍了Poly-向量检索方法,该方法为每项法律规定分配多个独立的嵌入:一个嵌入捕捉文本内容(完整文本),另一个嵌入捕捉标签(标识符或正式名称),并可选地增加其他嵌入以捕捉替代名称。受到弗雷格区分意义与所指的启发,Poly-向量检索方法将标签、标识符和参考标记视为刚性指代项,而内容嵌入则作为承载语义实质的载体。对巴西联邦宪法的实验表明,Poly-向量检索方法在以标签为中心的查询中显著提高了检索准确性,并且具有解决内部和外部交叉引用的潜力,同时也不会在纯语义查询上妥协性能。该研究讨论了在向量嵌入中明确分离引用内容的哲学和实际意义,并提出了将此方法应用于更广泛的法律数据集和其他具有显式引用标识符特征领域的未来研究方向。