摘要
arXiv:2502.03512v1 通知类型: 新
摘要: 在文本到图像(T2I)系统中精确对齐至关重要,以确保生成的视觉不仅准确地捕捉用户意图,还能符合严格的伦理和审美标准。比如谷歌Gemini事件中,错误对齐的输出引发了重大公众反对,这强调了具备强大对齐机制的必要性。相比之下,大规模语言模型(LLMs)在对齐方面取得了显著成功。在此基础上,研究人员希望应用类似的对齐技术,如直接偏好优化(DPO),以提高T2I系统的图像生成准确性和可靠性。
我们提出了YinYangAlign,一种先进的基准框架,系统地量化T2I系统的对齐精度,以解决六个基本且固有的矛盾设计目标。每一对都代表图像生成中的基本张力,如在遵循用户提示与创造修改之间保持平衡或在保持多样性的同时维护视觉连贯性。YinYangAlign包括详细的公理数据集,涵盖人类提示、对齐(选择)响应、未对齐(拒绝)的AI生成输出以及潜在矛盾的解释。