摘要
arXiv:2504.02646v1 类型: cross
摘要: 我们研究如何利用自然可用的用户反馈,如点击,来优化大型语言模型(LLM)管道,以使用提示生成个性化句子。基于提示空间的大动作空间估计策略梯度的方法要么受到由此产生的高方差的影响,要么受到不准确奖励预测带来的偏差影响。为了克服这些挑战,我们提出了一种新颖的核基离策略梯度方法,通过利用生成句子之间的相似性来估计策略梯度,从而显著降低方差并抑制偏差。我们新建立的一系列基准上的实证结果表明,在候选提示数量较大的情况下,所提出的方法在为电影推荐生成个性化描述方面特别有效。