摘要
arXiv:2407.03340v2 通知类型: 修改
摘要: 地址人估计(即理解某人在对谁说话)是多参与者对话场景中人类活动识别的一个基本任务。具体而言,在人-机器交互领域,使社会机器人能够参与这样的互动环境变得更加重要。然而,通常将其实现为二元分类任务,限制了机器人估计是否被提及的功能,从而限制了其互动技能。为了使社会机器人获得人类的信任,重要的是表现出一定的透明性和可解释性。因此,在当前的机器学习应用和模型中,可解释的人工智能起着重要作用,不仅可以提供其决策的解释,还可以实现优秀的表现。在我们的工作中,我们:a) 提出了一种与之前最先进的方法相比性能改进的地址人估计模型;b) 进一步修改该模型,使其包含固有的可解释注意力机制片段;c) 将可解释的地址人估计整合到iCub机器人的多参与者对话模块化认知架构中;d) 在多参与者人-机器交互中验证该可解释模型的实时性能;e) 提出几种将可解释性和透明性整合到上述架构中的方法;f) 进行在线用户研究,以分析不同解释对人类参与者对机器人的认知效果的影响。