LLM2D
AI之眼:利用计算机图形学问题评估GPT-4o的视觉感知能力和几何推理能力
An Eye for an AI: Evaluating GPT-4o's Visual Perception Skills and Geometric Reasoning Skills Using Computer Graphics Questions
作者: Tony Haoran Feng (University of Auckland), Paul Denny (University of Auckland), Burkhard C. W\"unsche (University of Auckland), Andrew Luxton-Reilly (University of Auckland), Jacqueline Whalley (Auckland University of Technology)
发布日期: 10/23/2024
arXiv ID: oai:arXiv.org:2410.16991v1

摘要

计算机图形学(CG)是计算机科学(CS)的一个热门领域,但许多学生发现这个主题很难,因为它需要大量的技能,例如数学、编程、几何推理和创造力。近年来,研究人员一直在研究如何利用生成式人工智能(GenAI)的力量来改进教学。在计算机科学领域,许多研究都集中在入门计算方面。最近一项评估大型语言模型(LLM)GPT-4(仅文本)在CG问题上的性能的研究表明,其性能较差,并且依赖于对图像内容的详细描述,这通常需要用户有相当的洞察力才能获得合理的结果。到目前为止,还没有研究调查大型多模态模型(LMM)或多模态LLM解决CG问题的能力以及这些能力如何用于改进教学。在本研究中,我们构建了两个CG问题数据集,这些问题需要不同程度的视觉感知能力和几何推理能力,并在这两个数据集上评估了当前最先进的LMM GPT-4o。我们发现,尽管GPT-4o在独立解决包含视觉信息的问题方面表现出巨大的潜力,但在生成结果的准确性和质量方面仍然存在重大局限性。我们针对CG教育者提出了几种新颖的方法,以将GenAI融入CG教学中,尽管存在这些局限性。我们希望我们的指南能够进一步鼓励CG课堂的学习和参与。