LLM2D

摘要

在文本到图像生成模型领域，训练数据集固有的偏差往往会传播到生成的內容，在社会敏感的语境中构成重大的伦理挑战。我们引入了 FairCoT，一个新颖的框架，通过多模态生成式大型语言模型 (LLM) 中的思维链 (CoT) 推理来增强扩散模型的公平性。FairCoT 采用迭代式 CoT 细化和服装属性预测来系统地减轻偏差，确保生成图像的多样性和公平性。通过整合迭代式推理流程，FairCoT 克服了零样本 CoT 在敏感场景中的局限性，在创造力和伦理责任之间取得平衡。跨多个模型（包括 DALL-E 和各种 Stable Diffusion 变体）的实验评估表明，FairCoT 显着提高了公平性和多样性指标，而不会影响图像质量或相关性。我们的方法推动了生成式建模中的伦理人工智能实践，促进了社会责任感的內容生成，并为人工智能生成图像的公平性树立了新标准。