LLM2D

摘要

arXiv:2505.06030v1 Announce Type: 新 Abstract: 将自然语言与几何形状结合起来是机器人技术和基于语言的设计领域中的一个新兴研究领域，具有多种应用。在这个领域中，一个关键任务是对象目标识别，即根据目标的文本描述选择一个3D对象。3D对象的语言描述和空间关系的变异性使这个任务变得复杂，增加了更好地理解在这个领域中神经网络模型行为的需要。然而，在这个领域中进行的研究有限。具体来说，当模型在提供看似正确的对象描述后仍做出错误预测时，实践者会想知道：“模型为什么错了？”在本文中，我们提出了一种方法来回答这个问题，通过生成反事实示例。该方法接受一个分类错误的样本，其中包括两个对象和一个文本描述，并生成一个替代但相似的表述，该表述会导致模型做出正确的预测。我们使用ShapeTalk数据集的数据以及三个不同的模型评估了我们的方法。我们的反事实示例保持了原始描述的结构，具有语义上的相似性和意义。它们揭示了描述中的弱点、模型偏见，并增强了对模型行为的理解。这些见解有助于实践者更好地与系统交互，也有助于工程师改进模型。