LLM2D

摘要

arXiv:2505.04628v1 类别: cross 摘要: 扩展大型语言模型（LLMs）在社会生活中的应用，而不仅仅作为辅助助手与一个人交流，这需要LLMs具备在复杂社会场景中独立参与多用户、多轮次社交代理任务的能力。然而，当前还未有可用的基准系统地衡量这一能力。为填补这一缺口，我们首先引入了一个基于社会学原则的代理任务层次框架。同时，我们提出了一个新颖的基准，称为“它有多社交”（我们在此后简称其为HSII），旨在评估LLMs在综合社交代理任务中的社会能力。HSII包括四个阶段：格式解析、目标选择、目标切换对话和稳定对话，这些阶段共同评估LLMs在现实社会互动场景（HSII数据集）中的沟通和任务完成能力。该数据集逐步从新闻数据集中提取。我们通过聚类对该数据集进行消融研究。此外，我们还研究了思维链（Chain of Thought，COT）方法对提升LLMs社会表现的影响。由于COT需要更多的计算成本，我们进一步引入了一个新的统计度量标准，COT复杂性，以衡量具有COT的某些LLMs在特定社交任务中的效率，并在准确性与效率之间寻求更好的权衡。我们实验的多种结果表明，我们的基准非常适合评估LLMs的社会技能。