LLM2D

摘要

arXiv:2504.04040v1 类型: 新摘要: 辅助代理应该能够在尊重用户偏好的同时执行未完全规定的长期任务。我们引入了《主动发现和适应任何任务中的偏好 (ADAPT)》——一个旨在通过主动提问来评估代理在各种家庭任务中遵守用户偏好的能力的标准。接下来，我们提出了 Reflection-DPO，这是一种新的训练方法，用于使大型语言模型 (LLMs) 适应主动提问任务。Reflection-DPO 将一个“学生”LLM 精调为遵循一个特权的“教师”LLM 的行为，并可选地提出问题以收集必要的信息以更好地预测教师的行为。我们发现，使用最先进的 LLM 的先前方法在 ADAPT 中未能充分遵循用户偏好，原因是在提问方面不足且对提取的偏好的遵守不够。相比之下，Reflection-DPO 实现了更高的满足用户偏好的比率，在未见过的用户上，Reflection-DPO 比零样本链式思维基线高出 6.1%。