摘要
arXiv:2504.03206v1 Announce Type: cross
摘要:有效的对话代理必须能够根据用户的需求、个性和属性个性化其行为,无论是辅助写作任务还是在教育或医疗保健等领域操作。当前的训练方法,如从人类反馈中强化学习(RLHF),优先考虑有用性和安全性,但在培养真正具有同理心、适应性和个性化的互动方面仍存在不足。传统个性化方法通常依赖于广泛的用户历史,这限制了其在新用户或情境限制用户中的有效性。为克服这些局限性,我们提出了一种方法,即将改进对话代理对用户的模型的内在动机作为额外的奖励,与多轮次的RLHF相结合。这种奖励机制激励代理主动获取用户的特征,通过优化对话以提高其用户模型的准确性。因此,策略代理可以通过获得更多信息来提供更加个性化的互动。我们将在教育和健身环境中应用该方法,其中LLM根据用户的隐藏学习风格或生活方式属性教授概念或推荐个性化策略。使用LLM模拟的用户,我们的方法在揭示用户偏好和适应用户方面优于多轮次的RLHF基线。