LLM2D

摘要

arXiv:2408.04197v3 公告类型: 替换-交叉摘要：语义嵌入模型（SEM），一种基于神经网络的Siamese架构，在信息检索和自然语言处理领域正逐渐受到关注。为了以监督方式在网页搜索中训练SEM，通常利用搜索引擎查询日志自动制定成对的判断作为训练数据。尽管语义嵌入在搜索引擎行业的应用越来越多，但在训练SEM的成对判断制定方面的工作却相对较少。本文首次对生成SEM成对判断的一系列策略进行了深入研究。有趣的是（可能令人惊讶的是），在成对学习到排序（LTR）领域广泛使用的成对判断制定策略并不一定对训练SEM有效。基于主要商业搜索引擎的查询日志和点击活动的大规模实证研究，我们展示了SEM的有效策略，并强调了混合启发式方法（例如：点击 > 未点击）相比于成对学习到排序中的原子启发式方法（例如：点击 > 跳过）的优势。我们总结了训练SEM的最佳实践，并为未来研究提供了有希望的见解。