LLM2D

摘要

操纵可变形物体的一个难点在于其特征描述以及用于操纵的代表性关键点的检测。过去十年，研究人员对表征和操纵非流体性质的可变形物体（如衣服和绳索）表现出浓厚的兴趣。尽管在物体特征描述方面已经提出了一些方案，但研究人员始终面临着需要通过图像获取物体像素级信息以提取相关信息的挑战。这通常是通过针对此目的而使用在手动标记数据上训练的分割网络来实现的。本文探讨了熔池特征描述以定义稳定特征，这些特征可作为进一步运动控制目标的信息。我们通过采用不同的流程来实现这一点。第一个流程包括利用在教师-学生框架下训练的生成模型来表征流体可变形物体。第二个流程则利用基础模型作为教师来表征图像中的物体，无需任何预训练和数据集。从基础模型到较小的生成模型的知识蒸馏的性能在可变形物体的表征方面显示出显著的结果。学生网络能够学习以13.4像素的误差检索物体的关键点。教师的评估基于其检索物体掩码所代表的像素级信息的能力，平均交并比 (mIoU) 为 75.26%。