LLM2D

摘要

arXiv:2502.00640v1 宣称类型: 新版本摘要: 大型语言模型通常使用下一个回合的奖励进行训练，这限制了它们优化长期交互的能力。因此，它们往往对模棱两可或开放性的用户请求被动回应，不能帮助用户实现最终意图，导致对话效率低下。为了解决这些限制，我们引入了CollabLLM，这是一种新颖且通用的训练框架，旨在增强多回合的人类-LLM协作。其关键创新是一个协作模拟，使用多回合感知奖励来估计响应的长期贡献。通过强化微调这些奖励，CollabLLM不仅能够响应用户请求，还能积极发现用户意图并提供有价值的建议，这是更以用户为中心的AI的关键一步。我们还设计了一个多回合交互基准，其中包含三个具有挑战性的任务，如文档创建。CollabLLM在基线平均任务性能上提高了18.5%，在LLM评审员评估的交互性上提高了46.3%。最后，我们在201名评审员中进行了一项大规模用户研究，结果显示CollabLLM使用户满意度提高了17.6%，减少了用户花费的时间10.4%。