摘要
多模态大型语言模型 (MLLM) 作为重要的接口,连接着人类与多模态应用中的 AI 技术。然而,当前的 MLLM 由于训练数据中方向标注的不一致性,难以准确解读图像中的物体方向,阻碍了对方向一致性理解的发展。为了克服这个问题,我们提出了以自我为中心的指令微调方法,该方法基于从用户自我视角得出的统一标注标准,使 MLLM 的方向理解与用户的视角保持一致。我们首先生成以自我为中心的指令数据,利用 MLLM 识别物体细节的能力,并应用先验知识进行方向理解。利用这些数据,我们进行指令微调,以增强模型准确解读方向的能力。此外,我们引入了 EgoOrientBench 基准,该基准使用从不同领域收集的图像,通过三个任务评估 MLLM 的方向理解能力。该基准的实验结果表明,以自我为中心的指令微调显著提高了方向理解能力,而不会影响 MLLM 的整体性能。指令数据和基准数据集可在我们的项目页面 https://github.com/jhCOR/EgoOrientBench 获取。