摘要
arXiv:2505.04628v1 类别: cross
摘要: 扩展大型语言模型(LLMs)在社会生活中的应用,而不仅仅作为辅助助手与一个人交流,这需要LLMs具备在复杂社会场景中独立参与多用户、多轮次社交代理任务的能力。然而,当前还未有可用的基准系统地衡量这一能力。为填补这一缺口,我们首先引入了一个基于社会学原则的代理任务层次框架。同时,我们提出了一个新颖的基准,称为“它有多社交”(我们在此后简称其为HSII),旨在评估LLMs在综合社交代理任务中的社会能力。HSII包括四个阶段:格式解析、目标选择、目标切换对话和稳定对话,这些阶段共同评估LLMs在现实社会互动场景(HSII数据集)中的沟通和任务完成能力。该数据集逐步从新闻数据集中提取。我们通过聚类对该数据集进行消融研究。此外,我们还研究了思维链(Chain of Thought,COT)方法对提升LLMs社会表现的影响。由于COT需要更多的计算成本,我们进一步引入了一个新的统计度量标准,COT复杂性,以衡量具有COT的某些LLMs在特定社交任务中的效率,并在准确性与效率之间寻求更好的权衡。我们实验的多种结果表明,我们的基准非常适合评估LLMs的社会技能。