摘要
arXiv:2502.03512v2 宣告类型: 更改
摘要:文本到图像(T2I)系统中的精确对齐至关重要,以确保生成的视觉不仅准确地捕捉用户意图,还符合严格的伦理和美学标准。像谷歌 Gemini 恶剧这样的事件,其中错配的输出引发了重大公众反弹,强调了需要稳健对齐机制的紧迫性。相反,大型语言模型(LLMs)在对齐方面已取得显著成功。在此基础上,研究者们热衷于将类似的对齐技术,如直接偏好优化(DPO),应用到T2I系统中,以提高图像生成的精确度和可靠性。
我们提出了YinYangAlign,这是一种先进的基准框架,系统地量化了T2I系统的对齐精确度,解决了六个基本且内在矛盾的设计目标。每一对代表了图像生成中的基本紧张关系,例如在遵循用户提示与创造性修改之间平衡,或在保持多样性的同时维持可视化连贯性。YinYangAlign 包括详细的公理数据集,其中包含人类提示、对齐(选择)的响应、未对齐(被拒)的AI生成输出以及这些底层矛盾的解释。