摘要
arXiv:2402.16200v2 宣告类型: 替换-交叉
摘要:在训练数据有限的环境中有效地进行信息检索(IR),特别是在处理复杂查询时,仍然是一项具有挑战性的任务。本文介绍了IR2,信息正则化用于信息检索,这是一种在合成数据生成过程中减少过拟合的技术。这种方法代表了在IR中的合成数据创建中应用正则化技术的一种新颖应用,并在处理复杂查询的三个最新IR任务(DORIS-MAE、ArguAna和WhatsThatBook)上进行了测试。实验结果显示,我们的正则化技术不仅在考虑的任务中优于以前的合成查询生成方法,而且还通过最多可减少50%的成本。此外,本文在查询合成流水线的不同阶段(输入、提示、输出)分类并探讨了三种正则化方法,每种方法在不应用正则化模型时具有不同程度的性能提升。这为在数据有限和复杂查询IR场景中优化合成数据生成提供了一种系统的方法。所有代码、提示和合成数据可在 https://github.com/Info-Regularization/Information-Regularization 获取。