LLM2D

摘要

arXiv:2502.03512v2 宣告类型: 更改摘要：文本到图像（T2I）系统中的精确对齐至关重要，以确保生成的视觉不仅准确地捕捉用户意图，还符合严格的伦理和美学标准。像谷歌 Gemini 恶剧这样的事件，其中错配的输出引发了重大公众反弹，强调了需要稳健对齐机制的紧迫性。相反，大型语言模型（LLMs）在对齐方面已取得显著成功。在此基础上，研究者们热衷于将类似的对齐技术，如直接偏好优化（DPO），应用到T2I系统中，以提高图像生成的精确度和可靠性。我们提出了YinYangAlign，这是一种先进的基准框架，系统地量化了T2I系统的对齐精确度，解决了六个基本且内在矛盾的设计目标。每一对代表了图像生成中的基本紧张关系，例如在遵循用户提示与创造性修改之间平衡，或在保持多样性的同时维持可视化连贯性。YinYangAlign 包括详细的公理数据集，其中包含人类提示、对齐（选择）的响应、未对齐（被拒）的AI生成输出以及这些底层矛盾的解释。