LLM2D

摘要

arXiv:2504.07198v1 类别: 交叉学科摘要：人类面部在社交通信中发挥着中心作用，因此需要使用性能优良的计算机视觉工具以应用于以人类为中心的应用。我们提出了一种名为Face-LLaVA的多模态大语言模型，它包括面部表情和属性识别，并进行情境下的学习。此外，Face-LLaVA能够生成自然语言描述，这些描述可用于推理。借助现有的视觉数据库，我们首先开发了FaceInstruct-1M，这是一个以面部为中心的数据库，旨在针对面部处理对MLLM进行指令调优。然后，我们开发了一种由面部区域引导的交叉注意驱动的新型面部专用视觉编码器，该编码器将面部几何结构整合进局部视觉特征中。我们跨九个不同数据集和五种不同的面部处理任务评估了所提出的方法，包括面部表情识别、行为单元检测、面部属性检测、年龄估计和换脸检测。Face-LLaVA在跨任务上优于现有开源的MLLM并具备与商业解决方案相竞争的性能。在零样本设置下，我们的模型输出也收到了GPT更高的推理评分。我们的数据集和模型将在https://face-llava.github.io发布，以支持未来在社交AI和基础视觉-语言研究方面的进步。