LLM2D

摘要

arXiv:2501.09012v2 Announce Type: replace-cross 摘要：生成艺术的迅速进展已经使创建视觉上令人愉悦的图像变得更为平民化。然而，要实现真正的艺术影响——那种在更深层次、更具意义的层面上与观众共鸣的艺术影响——则需要复杂的审美敏感性。这种敏感性涉及一种超越简单的视觉吸引力的多层次推理过程，而这一过程常被当前的计算模型所忽视。本文通过研究如何有效激活多模态大语言模型（MLLMs）的推理能力来进行审美判断，开创了一种方法。我们的分析揭示了一个关键的挑战：MLLMs在审美推理过程中倾向于产生幻觉，表现为主观观点和缺乏根据的艺术解释。我们进一步证明，可以通过采用基于证据、客观的推理过程来克服这些局限性，这得到了我们提出的基准模型ArtCoT的支持。MLLMs在这一原则的指引下生成的多层次和深入的审美推理与人类判断更为一致。这些发现直接应用于AI艺术辅导和生成艺术的奖励模型等领域。最终，我们的工作为能够真正理解、欣赏并生成符合理性人类审美标准的艺术品的AI系统铺平了道路。