LLM2D

摘要

arXiv:2505.03846v1 宣告类型：交叉摘要：从短视频中分析出显在的人格特征由于视觉、听觉和文本线索的复杂交互作用而面临重大挑战。在本文中，我们提出了GAME，这是一种图增强的多模态编码器，旨在稳健地建模和融合多源特征以实现自动人格预测。对于视觉流，我们构建了一个面部图，并引入了双分支Geo Two-Stream网络，将图卷积网络（GCNs）和卷积神经网络（CNNs）与注意力机制相结合以捕捉基于结构和外观的面部线索。为了涵盖这些线索，全局上下文和身份特征使用预训练的ResNet18和VGGFace骨干网络提取。为了捕捉时间动态，帧级特征通过带有时间注意力模块的双向GRU进行处理。同时，音频表示从VGGish网络获得，而语言语义则通过XLM-Roberta变换器捕捉。为了实现有效的多模态集成，我们提出了一种基于通道注意力的融合模块，后面跟着一个多层感知机（MLP）回归头以预测人格特征。广泛的实验表明，GAME在多个基准测试中始终优于现有方法，验证了其有效性和泛化能力。