LLM2D

摘要

arXiv:2504.13898v1 Announce Type: cross 摘要：我们的工作旨在推动具身人工智能（AI）代理在现实社会互动中的社会推理能力。最近，语言模型（LMs）和基础模型（FMs）正被用作自动评估人机互动的工具，目标是最终用于改善AI代理的政策。为了进一步在此方向上推动研究，我们介绍了一个大规模的真实世界人类机器人社会互动（HSRI）数据集，以评估LMs和FMs识别人类社会互动并推理的能力，特别是在机器人社会错误和能力方面。我们的数据集包含400个真实世界的人与机器人的社会互动视频和超过10,000个注释，详细记录了机器人的社会错误、能力、解释和纠正措施，捕捉了仅在真实世界互动中才存在的独特人类-机器互动方面。为了进一步评估AI模型对社会互动的推理能力，我们提出了八个新的基准任务，围绕AI模型是否能够（1）通过检测社会错误和能力来评估社会互动，（2）识别与错误和能力相关的解释因素，（3）理解现实世界社会互动的流程，以及（4）为社会错误提供理由和纠正措施。现代语言模型和基础模型的人机实验表明，当前模型在这些任务上存在困难，证明我们的数据集和基准为通往社交智能AI提供了一步进展。