LLM2D

摘要

传统上，段落检索依赖于 TF-IDF 和 BM25 等词汇方法。最近，一些神经网络模型在性能上超越了这些方法。然而，这些模型面临着挑战，例如需要大型标注数据集以及适应新领域。本文介绍了 Poleval 2023 任务 3: 段落检索挑战的获奖解决方案，该挑战涉及检索三个领域的波兰语文本段落：琐事、法律和客户支持。然而，只有琐事领域被用于训练和开发数据。该方法使用 OKAPI BM25 算法检索文档，并使用一组公开可用的多语言交叉编码器进行重新排序。微调重新排序模型略微提高了性能，但仅在训练领域，而在其他领域则有所下降。