LLM2D

摘要

arXiv:2505.05501v1 交叉类型: cross 摘要：最近，OpenAI解锁了GPT-4o(mni)的视觉生成能力。它展示了非常出色且多模态条件理解能力及多样的任务指令。在这篇论文中，我们旨在探讨GPT-4o在各种任务中的能力。受到之前研究的启发，我们构建了一个任务分类体系，并精心准备了一组测试样本，进行全面的定性测试。得益于GPT-4o强大的多模态理解能力，其图像生成过程展示出了超越传统图像生成任务的能力。因此，从模型能力的维度出发，我们对其在六个任务类别中的表现进行了评估：传统图像生成任务、判别任务、基于知识的生成、基于常识的生成、空间意识图像生成，以及时间感知图像生成。这些任务不仅评估了模型输出的质量和条件对齐情况，还更深入地探索了GPT-4o对真实世界概念的理解。我们的结果表明，GPT-4o在通用合成任务中表现出色，显示了其在文本到图像生成、视觉风格化和低级图像处理方面的强大能力。然而，在进行精细的空间推理、指令驱动的生成以及一致的时间预测方面，其仍然存在显著的限制。此外，在面对知识密集型或领域特定的情景，如科学插图或数学图表时，模型往往会出现幻觉、事实错误或结构不一致的现象。这些发现表明，尽管GPT-4o在统一多模态生成方面取得了重大进步，但在可靠应用于专业或安全关键领域之前，仍有许多路要走。