LLM2D

摘要

arXiv:2412.08911v3 宣告类型: replace-cross 摘要：多目标学习旨在使用单一模型同时优化多个目标，以在多样的目标之间实现高且均衡的性能。然而，这通常会带来一个更复杂的问题，尤其是在权衡目标之间潜在冲突时，这会导致更高的内存需求和计算复杂性。本文引入了一种多目标条件监督学习（MOGCSL）框架，用于从离线序列数据中自动学习实现多个目标。MOGCSL通过将目标从一维标量重新定义为多维向量，扩展了传统的GCSL方法，使其在多目标场景中获益于自然地消除了复杂架构和优化约束的需要。此外，MOGCSL有效地过滤掉了无法在多个目标上实现期望的长期奖励的无信息或噪声实例。我们还为MOGCSL引入了一种新颖的目标选择算法，用于建模和识别适合推理的“高”可实现目标。尽管MOGCSL非常通用，但我们专注于其在商用推荐系统中下一动作预测问题的应用。在这个上下文中，任何可行的解决方案都需要具有合理的扩展性，同时也要对这种应用空间中大量的噪声数据具有鲁棒性。通过在实际推荐数据集上的广泛实验，我们展示了MOGCSL在这两个方面的卓越表现。此外，还包括了分析和实验，以解释其在具有多个目标的推荐系统训练数据中排除噪声部分的强大力量。