摘要
arXiv:2502.12328v1 评估类型:横跨领域
摘要:本文介绍了PeopleJoin,这是一个用于评估语言模型(LM)介导协同解决问题的基准。给定用户请求,PeopleJoin智能体必须识别可能能够提供帮助的队友,与这些队友交谈以收集信息,最终为原始用户提供一个有用的答案或总结。PeopleJoin包括两个评估领域:PeopleJoin-QA,专注于表格数据问题,以及PeopleJoin-DocCreation,专注于文档创建任务。这两个领域是现有数据库问答和多文档总结NLP基准的改编;然而,在这里,完成这些任务所需的必要信息分布在2-20位用户的合成“组织”中,模拟了自然的多人协作场景。我们实现了几种流行的LM智能体架构,评估它们在完成任务方面的准确性和效率,并指出可以使用PeopleJoin研究的新研究问题。