摘要
arXiv:2406.09070v3 通知类型: 替换-交叉
摘要:在文本到图像生成模型的领域中,训练数据集内在的偏见往往会在生成的内容中传播,这在社会敏感的情境中构成了重大的伦理挑战。我们引入了FairCoT,这是一个新颖的框架,通过多模态生成大语言模型内的链式思考(CoT)推理来增强图像生成模型的公平性。FairCoT 采用迭代的 CoT 精炼来系统地减轻偏见,并能实时动态调整文本提示,确保生成图像中多样化和公平的代表。通过整合迭代的推理过程,FairCoT 解决了零样本 CoT 在敏感情境中的局限性,平衡了创造力与伦理责任。在包括 DALLE 和各种 Stable Diffusion 变体在内的流行文本到图像系统中进行的实验评估表明,FairCoT 在不牺牲图像质量或语义保真度的情况下,显著提高了公平性和多样性。通过结合强大的推理、轻量级部署和对多个模型的可扩展性,FairCoT 代表了朝着更负责任和透明的 AI 驱动内容生成迈出的重要一步。