LLM2D

摘要

我们开发了一个决策框架，将学习搜索或推荐引擎的排序策略问题（在双边电子商务市场中）转化为一个使用观测数据的预期奖励优化问题。作为一种价值分配机制，排序策略将检索到的项目分配到指定的槽位，以便在购物旅程的任何阶段最大化用户对槽位项目的效用。这种分配的目标反过来可以根据底层概率用户浏览模型来定义，即给定排序上下文，在呈现的项目上匹配用户意图的交互事件的预期数量。通过认识到排序作为一种干预行为的影响，以告知用户与槽位项目的交互，以及相应交互事件对市场的经济价值，我们将市场的预期奖励制定为所有呈现的排序行为的集体价值。这种公式的关键要素是上下文价值分布的概念，它不仅表示将价值归因于会话内的排序干预，而且还表示跨用户会话的市场奖励分布。我们从观测数据中建立了对市场预期奖励的经验估计，这些数据考虑了跨会话上下文的经济价值的异质性，以及从观测用户活动数据中学习的分布变化。然后可以通过使用标准贝叶斯推理技术优化经验预期奖励估计来训练排序策略。我们报告了在一个主要电子商务平台上的产品搜索排序任务的经验结果，展示了由在关于上下文价值分布的极端选择方面训练的经验奖励估计的排序策略所控制的基本权衡。