摘要
arXiv:2502.10642v1 宣布类型: 新
摘要:本文探讨了基于视觉语言人口统计数据的用户画像任务中多模态预训练模型的性能。这些模型对于适应社会机器人领域中人类用户的需要和偏好至关重要,从而提供个性化响应并提高交互质量。首先,我们介绍了两个特别构建的数据集,用于表示从用户面部图像推导出的人口统计特征。接着,我们在这些数据集上评估了一个著名的对比多模态预训练模型 CLIP 的性能,包括其原始状态和微调后的状态。初步结果显示,未经微调的情况下,CLIP 在匹配图像和人口统计描述方面表现不佳。尽管微调显著提升了其预测能力,但模型在有效泛化微妙的人口统计特征方面仍然表现出局限性。为解决这个问题,我们提出采用掩码图像建模策略以提高泛化能力并更好地捕捉微妙的人口统计属性。这种方法为增强多模态用户建模仿人的族裔敏感性提供了途径。