LLM2D
多语言检索器:密集检索表示的分析
MultiContrievers: Analysis of Dense Retrieval Representations
作者: Seraphina Goldfarb-Tarrant, Pedro Rodriguez, Jane Dwivedi-Yu, Patrick Lewis
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2402.15925v2

摘要

稠密检索器将源文档压缩成(可能是存在信息损失的)向量表示,但关于哪些信息丢失了,哪些信息保留了,以及这如何影响下游任务,几乎没有分析。我们首次分析了稠密检索器捕获的信息与它们所基于的语言模型(例如,BERT 与 Contriever)之间的对比。我们使用 25 个 MultiBert 检查点作为随机初始化来训练 MultiContrievers,这是一组 25 个 Contriever 模型。我们测试了是否可以从类维基百科文档的 Contriever 向量中提取特定信息(例如性别和职业)。我们通过信息论探测来衡量这种可提取性。然后,我们检查了可提取性与性能和性别偏见之间的关系,以及这些结果对许多随机初始化和数据随机排列的敏感性。我们发现:(1)Contriever 模型的可提取性显着提高,但可提取性通常与基准性能相关性很差;(2)存在性别偏见,但并非由 Contriever 表示引起;(3)对随机初始化和数据随机排列都高度敏感,这表明未来的检索研究应该在更广泛的范围内进行测试。