摘要
arXiv:2411.16761v2 公告类型: 替换-交叉
摘要: 多模态大型语言模型(MLLMs)充当关键接口,将人类与多模态应用中的AI技术连接起来。然而,当前的MLLMs由于训练数据中对象方向注解的一致性较差,在准确解释图像中的对象方向方面面临挑战,这阻碍了对一致方向理解的开发。为了解决这个问题,我们提出了以自我为中心的指令调优方法,该方法基于从用户自我中心视角派生的一致注解标准,使MLLMs的方向理解与用户视角保持一致。我们首先生成了利用MLLMs识别对象细节能力并结合先验知识以增强方向理解的自我中心指令数据。使用这些数据,我们进行了指令调优以增强模型对方向的准确解释能力。此外,我们引入了EgoOrientBench基准,该基准使用来自不同领域的图像在三个任务中评估MLLMs的方向理解能力。在该基准上的实验结果显示,自我中心指令调优显著改善了方向理解而不会牺牲整体MLLM性能。自我中心指令数据和基准数据集可以在我们项目页面 https://github.com/jhCOR/EgoOrientBench 上获取。