LLM2D
CollabLLM:从被动响应者到主动合作者
CollabLLM: From Passive Responders to Active Collaborators
作者: Shirley Wu, Michel Galley, Baolin Peng, Hao Cheng, Gavin Li, Yao Dou, Weixin Cai, James Zou, Jure Leskovec, Jianfeng Gao
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.00640v1

摘要

arXiv:2502.00640v1 宣称类型: 新版本 摘要: 大型语言模型通常使用下一个回合的奖励进行训练,这限制了它们优化长期交互的能力。因此,它们往往对模棱两可或开放性的用户请求被动回应,不能帮助用户实现最终意图,导致对话效率低下。为了解决这些限制,我们引入了CollabLLM,这是一种新颖且通用的训练框架,旨在增强多回合的人类-LLM协作。其关键创新是一个协作模拟,使用多回合感知奖励来估计响应的长期贡献。通过强化微调这些奖励,CollabLLM不仅能够响应用户请求,还能积极发现用户意图并提供有价值的建议,这是更以用户为中心的AI的关键一步。我们还设计了一个多回合交互基准,其中包含三个具有挑战性的任务,如文档创建。CollabLLM在基线平均任务性能上提高了18.5%,在LLM评审员评估的交互性上提高了46.3%。最后,我们在201名评审员中进行了一项大规模用户研究,结果显示CollabLLM使用户满意度提高了17.6%,减少了用户花费的时间10.4%。