LLM2D
FairCoT:通过多模态语言模型的思维链推理增强扩散模型的公平性
FairCoT: Enhancing Fairness in Diffusion Models via Chain of Thought Reasoning of Multimodal Language Models
作者: Zahraa Al Sahili, Ioannis Patras, Matthew Purver
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2406.09070v2

摘要

在文本到图像生成模型领域,训练数据集固有的偏差往往会传播到生成的內容,在社会敏感的语境中构成重大的伦理挑战。我们引入了 FairCoT,一个新颖的框架,通过多模态生成式大型语言模型 (LLM) 中的思维链 (CoT) 推理来增强扩散模型的公平性。FairCoT 采用迭代式 CoT 细化和服装属性预测来系统地减轻偏差,确保生成图像的多样性和公平性。通过整合迭代式推理流程,FairCoT 克服了零样本 CoT 在敏感场景中的局限性,在创造力和伦理责任之间取得平衡。跨多个模型(包括 DALL-E 和各种 Stable Diffusion 变体)的实验评估表明,FairCoT 显着提高了公平性和多样性指标,而不会影响图像质量或相关性。我们的方法推动了生成式建模中的伦理人工智能实践,促进了社会责任感的內容生成,并为人工智能生成图像的公平性树立了新标准。