LLM2D
mrCAD: 多模态计算机辅助设计细化
mrCAD: Multimodal Refinement of Computer-aided Designs
作者: William P. McCarthy, Saujas Vaduguru, Karl D. D. Willis, Justin Matejka, Judith E. Fan, Daniel Fried, Yewen Pu
发布日期: 4/30/2025
arXiv ID: oai:arXiv.org:2504.20294v1

摘要

arXiv:2504.20294v1 宣告类型: 新 摘要: 人类协作的一个关键特征是能够迭代地精炼我们已经传达的概念。相比之下,尽管生成型AI在内容的生成方面表现出色,但在根据具体语言指导对其先前输出进行特定修改时,它往往难以应付。为了在人类和机器执行编辑任务之间弥合差距,我们提出了mrCAD数据集,这是一个通信游戏中多模态指令的集合。在游戏中,玩家创建计算机辅助设计(CAD)并经过多轮迭代以匹配特定的目标设计。只有设计师能看见目标,他们必须使用文本、绘图或多种模态组合的方式向另一位玩家——建造者传达指令。mrCAD包含6,082场通信游戏,15,163次指令执行轮次,由1,092对人类玩家对战。我们分析了数据集并发现生成指令和精炼指令在绘图和文本的使用上存在差异。使用mrCAD任务作为基准,我们发现现有的最先进的视觉语言模型在遵循生成指令方面比遵循精炼指令方面表现更好。这些结果为分析和建模一种未被先前数据集所代表的多模态精炼语言奠定了基础。