摘要
arXiv:2408.04197v3 公告类型: 替换-交叉
摘要:语义嵌入模型(SEM),一种基于神经网络的Siamese架构,在信息检索和自然语言处理领域正逐渐受到关注。为了以监督方式在网页搜索中训练SEM,通常利用搜索引擎查询日志自动制定成对的判断作为训练数据。尽管语义嵌入在搜索引擎行业的应用越来越多,但在训练SEM的成对判断制定方面的工作却相对较少。本文首次对生成SEM成对判断的一系列策略进行了深入研究。有趣的是(可能令人惊讶的是),在成对学习到排序(LTR)领域广泛使用的成对判断制定策略并不一定对训练SEM有效。基于主要商业搜索引擎的查询日志和点击活动的大规模实证研究,我们展示了SEM的有效策略,并强调了混合启发式方法(例如:点击 > 未点击)相比于成对学习到排序中的原子启发式方法(例如:点击 > 跳过)的优势。我们总结了训练SEM的最佳实践,并为未来研究提供了有希望的见解。