LLM2D

摘要

稠密检索器将源文档压缩成（可能是存在信息损失的）向量表示，但关于哪些信息丢失了，哪些信息保留了，以及这如何影响下游任务，几乎没有分析。我们首次分析了稠密检索器捕获的信息与它们所基于的语言模型（例如，BERT 与 Contriever）之间的对比。我们使用 25 个 MultiBert 检查点作为随机初始化来训练 MultiContrievers，这是一组 25 个 Contriever 模型。我们测试了是否可以从类维基百科文档的 Contriever 向量中提取特定信息（例如性别和职业）。我们通过信息论探测来衡量这种可提取性。然后，我们检查了可提取性与性能和性别偏见之间的关系，以及这些结果对许多随机初始化和数据随机排列的敏感性。我们发现：（1）Contriever 模型的可提取性显着提高，但可提取性通常与基准性能相关性很差；（2）存在性别偏见，但并非由 Contriever 表示引起；（3）对随机初始化和数据随机排列都高度敏感，这表明未来的检索研究应该在更广泛的范围内进行测试。