LLM2D

摘要

我们提供了一个数据集，用于在工程设计中启用深度生成模型 (DGM)，并提出利用大型基础模型自动进行数据标注的方法。GeoBiked 收集了 4355 张自行车图像，并标注了结构和技术特征，用于研究两种自动标注技术：利用图像生成模型的整合潜在特征 (超特征) 来检测结构图像中的几何对应关系（例如轮毂中心的位置），以及生成结构图像的多样化文本描述。GPT-4o 是一种视觉语言模型 (VLM)，被指示分析图像并生成与系统提示一致的多样化描述。通过将技术图像表示为扩散超特征，可以进行它们之间的几何对应关系绘制。通过呈现多个带注释的源图像，可以提高对未见样本中几何点的检测精度。GPT-4o 具有生成技术图像准确描述的足够能力。仅基于图像进行生成会导致多样化的描述，但也会导致幻觉，而基于类别标签进行生成则会限制多样性。使用两者作为输入可以平衡创造力和准确性。成功地使用超特征进行几何对应关系表明，这种方法可以用于技术图像中的一般点检测和标注任务。使用 VLM 用文本描述对这些图像进行标注是可能的，但这取决于模型的检测能力、仔细的提示工程以及输入信息的选取。在工程设计中应用基础模型在很大程度上尚未得到探索。我们旨在通过一个数据集来弥合这一差距，以探索该领域中的 DGM 训练、微调和调节，并提出引导基础模型处理技术图像的方法。