摘要
arXiv:2501.13416v2 通知类型: 替换-交叉
摘要:理解多当事人对话中的社会信号对于人机交互和人工社会智能至关重要。社会信号包括身体姿态、头部姿态、言语以及在进餐时获取和取食食物等上下文特定的动作。过去在多当事人交互方面的研究倾向于构建特定任务的模型来预测社会信号。在本工作中,我们address了在单一模型中同时预测多模态社会信号的挑战。我们引入了M3PT,这是一种因果变换器架构,具有模态和时间块化的注意力掩蔽,能够同时处理多个参与者的多种社会提示及其时间交互。我们在Human-Human Commensality Dataset (HHCD) 上对M3PT进行训练和评估,并证明使用多种模态可以提高咬食时间预测和说话状态预测的效果。源代码:https://github.com/AbrarAnwar/masked-social-signals/.