LLM2D
GAME:通过图结构学习多模态交互以估计人格特质
GAME: Learning Multimodal Interactions via Graph Structures for Personality Trait Estimation
作者: Kangsheng Wang, Yuhang Li, Chengwei Ye, Yufei Lin, Huanzhen Zhang, Bohan Hu, Linuo Xu, Shuyan Liu
发布日期: 5/8/2025
arXiv ID: oai:arXiv.org:2505.03846v1

摘要

arXiv:2505.03846v1 宣告类型:交叉 摘要:从短视频中分析出显在的人格特征由于视觉、听觉和文本线索的复杂交互作用而面临重大挑战。在本文中,我们提出了GAME,这是一种图增强的多模态编码器,旨在稳健地建模和融合多源特征以实现自动人格预测。对于视觉流,我们构建了一个面部图,并引入了双分支Geo Two-Stream网络,将图卷积网络(GCNs)和卷积神经网络(CNNs)与注意力机制相结合以捕捉基于结构和外观的面部线索。为了涵盖这些线索,全局上下文和身份特征使用预训练的ResNet18和VGGFace骨干网络提取。为了捕捉时间动态,帧级特征通过带有时间注意力模块的双向GRU进行处理。同时,音频表示从VGGish网络获得,而语言语义则通过XLM-Roberta变换器捕捉。为了实现有效的多模态集成,我们提出了一种基于通道注意力的融合模块,后面跟着一个多层感知机(MLP)回归头以预测人格特征。广泛的实验表明,GAME在多个基准测试中始终优于现有方法,验证了其有效性和泛化能力。