LLM2D

摘要

arXiv:2504.05321v1 宣布类型: cross 摘要: 在赞助搜索广告领域，将广告与用户查询的搜索意图相匹配至关重要。查询到出价关键词（即竞价关键词）的重写是一种至关重要的技术，已经引起了广泛关注。近年来，随着大语言模型（LLMs）的普及，生成性检索方法已被证明在生成高相关性重写方面非常有效。然而，我们发现了现有方法中的一个显著局限性：虽然针对特定领域的微调增强了语义相关性，但这些模型对生成内容的内在价值，如商业价值，缺乏感知。因此，在微调之后，通常会采用基于强化学习的人类反馈微调（RLHF）阶段来解决这一问题。然而，传统的偏好对齐方法在对齐细微的价值方面通常面临挑战，并且容易过拟合，这降低了生成结果的有效性和质量。为了解决这些挑战，我们提出了VALUE（值感知大型语言模型用于加权 trie 的查询重写），这是第一个确保生成高价值和高度相关的出价关键词的框架。我们的方法利用了加权 trie，这是一种对传统trie数据结构进行创新修改。通过在解码过程中利用 trie 中的价值信息调整 LLM 的输出概率分布，我们限制生成空间并引导文本生成的轨迹。离线试验显示了我们的方法在语义匹配和偏好对齐方面的有效性，展示了价值属性超过五倍的显著改善。在线 A/B 测试进一步表明，我们的每千次展现收入（RPM）指标提高了 1.64%。VALUE 于 2024 年 10 月部署在我们的广告系统上，并服务于中国的双十一促销活动，这是最大的购物狂欢节。