LLM2D

摘要

计算机图形学（CG）是计算机科学（CS）的一个热门领域，但许多学生发现这个主题很难，因为它需要大量的技能，例如数学、编程、几何推理和创造力。近年来，研究人员一直在研究如何利用生成式人工智能（GenAI）的力量来改进教学。在计算机科学领域，许多研究都集中在入门计算方面。最近一项评估大型语言模型（LLM）GPT-4（仅文本）在CG问题上的性能的研究表明，其性能较差，并且依赖于对图像内容的详细描述，这通常需要用户有相当的洞察力才能获得合理的结果。到目前为止，还没有研究调查大型多模态模型（LMM）或多模态LLM解决CG问题的能力以及这些能力如何用于改进教学。在本研究中，我们构建了两个CG问题数据集，这些问题需要不同程度的视觉感知能力和几何推理能力，并在这两个数据集上评估了当前最先进的LMM GPT-4o。我们发现，尽管GPT-4o在独立解决包含视觉信息的问题方面表现出巨大的潜力，但在生成结果的准确性和质量方面仍然存在重大局限性。我们针对CG教育者提出了几种新颖的方法，以将GenAI融入CG教学中，尽管存在这些局限性。我们希望我们的指南能够进一步鼓励CG课堂的学习和参与。