摘要
arXiv:2505.04650v1 宣告类型: cross
摘要: 本文介绍了一个开源的统一基准和评估框架,用于文本到图像生成模型,特别关注元数据增强提示的影响。利用DeepFashion-MultiModal数据集,我们通过一组全面的定量指标来评估生成输出,包括加权得分、基于CLIP(对比语言图像预训练)的相似度、LPIPS(学习感知图像补丁相似度)、FID(弗雷切特入射距离)以及检索基措施,以及定性分析。我们的结果显示,结构化的元数据丰富极大地提升了跨多种文本到图像架构的视觉真实感、语义保真度和模型稳健性。虽然它不是传统意义上的推荐系统,但我们的框架可以根据评估指标来为模型选择和提示设计提供任务特定的建议。