LLM2D

摘要

arXiv:2502.12328v1 评估类型：横跨领域摘要：本文介绍了PeopleJoin，这是一个用于评估语言模型（LM）介导协同解决问题的基准。给定用户请求，PeopleJoin智能体必须识别可能能够提供帮助的队友，与这些队友交谈以收集信息，最终为原始用户提供一个有用的答案或总结。PeopleJoin包括两个评估领域：PeopleJoin-QA，专注于表格数据问题，以及PeopleJoin-DocCreation，专注于文档创建任务。这两个领域是现有数据库问答和多文档总结NLP基准的改编；然而，在这里，完成这些任务所需的必要信息分布在2-20位用户的合成“组织”中，模拟了自然的多人协作场景。我们实现了几种流行的LM智能体架构，评估它们在完成任务方面的准确性和效率，并指出可以使用PeopleJoin研究的新研究问题。