LLM2D

摘要

arXiv:2503.22374v1 交叉类型：cross 摘要：理解人类草图的本质具有挑战性，因为它们的创作方式存在广泛的变化。识别复杂的结构模式可以提高识别草图的准确性和生成草图的保真度。在本文中，我们介绍了ViSketch-GPT，这是一种通过多尺度上下文提取方法设计的新算法。该模型在多个尺度上捕捉 intricate 细节，并通过一种类似集成机制的方式将它们结合在一起，提取出的特征协同工作以增强识别和生成关键细节的能力，这些细节对于分类和生成任务至关重要。 ViSketch-GPT 的有效性通过在 QuickDraw 数据集上的广泛实验得到了验证。我们的模型建立了新的基准，显著优于现有方法，在分类和生成任务中表现优异，生成的草图保真度也显著提高。所提出的算法提供了一个强大的框架，通过提取协作识别 intricate 细节的特征来理解复杂结构，增强了对像草图这样的结构的理解，并使其成为计算机视觉和机器学习中多种应用的多功能工具。