摘要
稠密检索器将源文档压缩成(可能是存在信息损失的)向量表示,但关于哪些信息丢失了,哪些信息保留了,以及这如何影响下游任务,几乎没有分析。我们首次分析了稠密检索器捕获的信息与它们所基于的语言模型(例如,BERT 与 Contriever)之间的对比。我们使用 25 个 MultiBert 检查点作为随机初始化来训练 MultiContrievers,这是一组 25 个 Contriever 模型。我们测试了是否可以从类维基百科文档的 Contriever 向量中提取特定信息(例如性别和职业)。我们通过信息论探测来衡量这种可提取性。然后,我们检查了可提取性与性能和性别偏见之间的关系,以及这些结果对许多随机初始化和数据随机排列的敏感性。我们发现:(1)Contriever 模型的可提取性显着提高,但可提取性通常与基准性能相关性很差;(2)存在性别偏见,但并非由 Contriever 表示引起;(3)对随机初始化和数据随机排列都高度敏感,这表明未来的检索研究应该在更广泛的范围内进行测试。