LLM2D
人类机器人社会互动 (HSRI) 数据集:基础模型社会推理评估基准
The Human Robot Social Interaction (HSRI) Dataset: Benchmarking Foundational Models' Social Reasoning
作者: Dong Won Lee, Yubin Kim, Denison Guvenoz, Sooyeon Jeong, Parker Malachowsky, Louis-Philippe Morency, Cynthia Breazeal, Hae Won Park
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.13898v1

摘要

arXiv:2504.13898v1 Announce Type: cross 摘要:我们的工作旨在推动具身人工智能(AI)代理在现实社会互动中的社会推理能力。最近,语言模型(LMs)和基础模型(FMs)正被用作自动评估人机互动的工具,目标是最终用于改善AI代理的政策。为了进一步在此方向上推动研究,我们介绍了一个大规模的真实世界人类机器人社会互动(HSRI)数据集,以评估LMs和FMs识别人类社会互动并推理的能力,特别是在机器人社会错误和能力方面。我们的数据集包含400个真实世界的人与机器人的社会互动视频和超过10,000个注释,详细记录了机器人的社会错误、能力、解释和纠正措施,捕捉了仅在真实世界互动中才存在的独特人类-机器互动方面。为了进一步评估AI模型对社会互动的推理能力,我们提出了八个新的基准任务,围绕AI模型是否能够(1)通过检测社会错误和能力来评估社会互动,(2)识别与错误和能力相关的解释因素,(3)理解现实世界社会互动的流程,以及(4)为社会错误提供理由和纠正措施。现代语言模型和基础模型的人机实验表明,当前模型在这些任务上存在困难,证明我们的数据集和基准为通往社交智能AI提供了一步进展。