LLM2D
Preliminary 探索与 GPT-4o(mni) 原生图像生成
Preliminary Explorations with GPT-4o(mni) Native Image Generation
作者: Pu Cao, Feng Zhou, Junyi Ji, Qingye Kong, Zhixiang Lv, Mingjian Zhang, Xuekun Zhao, Siqi Wu, Yinghui Lin, Qing Song, Lu Yang
发布日期: 5/12/2025
arXiv ID: oai:arXiv.org:2505.05501v1

摘要

arXiv:2505.05501v1 交叉类型: cross 摘要:最近,OpenAI解锁了GPT-4o(mni)的视觉生成能力。它展示了非常出色且多模态条件理解能力及多样的任务指令。在这篇论文中,我们旨在探讨GPT-4o在各种任务中的能力。受到之前研究的启发,我们构建了一个任务分类体系,并精心准备了一组测试样本,进行全面的定性测试。得益于GPT-4o强大的多模态理解能力,其图像生成过程展示出了超越传统图像生成任务的能力。因此,从模型能力的维度出发,我们对其在六个任务类别中的表现进行了评估:传统图像生成任务、判别任务、基于知识的生成、基于常识的生成、空间意识图像生成,以及时间感知图像生成。这些任务不仅评估了模型输出的质量和条件对齐情况,还更深入地探索了GPT-4o对真实世界概念的理解。我们的结果表明,GPT-4o在通用合成任务中表现出色,显示了其在文本到图像生成、视觉风格化和低级图像处理方面的强大能力。然而,在进行精细的空间推理、指令驱动的生成以及一致的时间预测方面,其仍然存在显著的限制。此外,在面对知识密集型或领域特定的情景,如科学插图或数学图表时,模型往往会出现幻觉、事实错误或结构不一致的现象。这些发现表明,尽管GPT-4o在统一多模态生成方面取得了重大进步,但在可靠应用于专业或安全关键领域之前,仍有许多路要走。