LLM2D

摘要

arXiv:2503.23907v1 交叉公告类型：cross 摘要：图像美学评估（IAA）是一个长期存在且具有挑战性的研究任务。然而，其子集——人类图像美学评估（HIAA）却鲜有研究，尽管HIAA在社交媒体、AI工作流以及相关领域中被广泛应用。为解决这一研究缺口，我们的工作率先提出了一种专门针对HIAA的整体实施框架。具体来说，我们引入了HumanBeauty，这是首个专门用于HIAA的数据集，包含108,000张高质量的人像图片，并附有手动标注。为了实现全面而精细的HIAA，50,000张人像图片通过严谨的编选过程手动收集，并利用我们开创性的12维美学标准进行标注，而剩余的58,000张具有总体美学标签的人像图片则系统性地从公共数据集中筛选出来。基于HumanBeauty数据库，我们提出了HumanAesExpert，这是一个强大的视觉语言模型，用于评估人像的美学。我们创新性地设计了一个专家头，以整合美学子维度的人类知识，同时结合语言建模（LM）和回归头的使用。这种方法使我们的模型在整体和精细的HIAA方面表现出色。此外，我们引入了一个MetaVoter，它可以汇总三个头的评分，以有效平衡每个头的能力，从而提高评估精度。广泛实验表明，我们的HumanAesExpert模型在HIAA方面的性能远优于其他最先进的模型。我们的数据集、模型和代码已公开发布，以推进HIAA社区的发展。项目网页：https://humanaesexpert.github.io/HumanAesExpert/