摘要
传统上,段落检索依赖于 TF-IDF 和 BM25 等词汇方法。最近,一些神经网络模型在性能上超越了这些方法。然而,这些模型面临着挑战,例如需要大型标注数据集以及适应新领域。本文介绍了 Poleval 2023 任务 3: 段落检索挑战的获奖解决方案,该挑战涉及检索三个领域的波兰语文本段落:琐事、法律和客户支持。然而,只有琐事领域被用于训练和开发数据。该方法使用 OKAPI BM25 算法检索文档,并使用一组公开可用的多语言交叉编码器进行重新排序。微调重新排序模型略微提高了性能,但仅在训练领域,而在其他领域则有所下降。