LLM2D

摘要

多模态大型语言模型 (MLLM) 作为重要的接口，连接着人类与多模态应用中的 AI 技术。然而，当前的 MLLM 由于训练数据中方向标注的不一致性，难以准确解读图像中的物体方向，阻碍了对方向一致性理解的发展。为了克服这个问题，我们提出了以自我为中心的指令微调方法，该方法基于从用户自我视角得出的统一标注标准，使 MLLM 的方向理解与用户的视角保持一致。我们首先生成以自我为中心的指令数据，利用 MLLM 识别物体细节的能力，并应用先验知识进行方向理解。利用这些数据，我们进行指令微调，以增强模型准确解读方向的能力。此外，我们引入了 EgoOrientBench 基准，该基准使用从不同领域收集的图像，通过三个任务评估 MLLM 的方向理解能力。该基准的实验结果表明，以自我为中心的指令微调显著提高了方向理解能力，而不会影响 MLLM 的整体性能。指令数据和基准数据集可在我们的项目页面 https://github.com/jhCOR/EgoOrientBench 获取。