LLM2D
“正确”真的正确吗?通过自我中心指令微调增强多模态语言模型对面向对象理解
Is 'Right' Right? Enhancing Object Orientation Understanding in Multimodal Language Models through Egocentric Instruction Tuning
作者: Ji Hyeok Jung, Eun Tae Kim, Seo Yeon Kim, Joo Ho Lee, Bumsoo Kim, Buru Chang
发布日期: 11/27/2024
arXiv ID: oai:arXiv.org:2411.16761v1

摘要

多模态大型语言模型 (MLLM) 作为重要的接口,连接着人类与多模态应用中的 AI 技术。然而,当前的 MLLM 由于训练数据中方向标注的不一致性,难以准确解读图像中的物体方向,阻碍了对方向一致性理解的发展。为了克服这个问题,我们提出了以自我为中心的指令微调方法,该方法基于从用户自我视角得出的统一标注标准,使 MLLM 的方向理解与用户的视角保持一致。我们首先生成以自我为中心的指令数据,利用 MLLM 识别物体细节的能力,并应用先验知识进行方向理解。利用这些数据,我们进行指令微调,以增强模型准确解读方向的能力。此外,我们引入了 EgoOrientBench 基准,该基准使用从不同领域收集的图像,通过三个任务评估 MLLM 的方向理解能力。该基准的实验结果表明,以自我为中心的指令微调显著提高了方向理解能力,而不会影响 MLLM 的整体性能。指令数据和基准数据集可在我们的项目页面 https://github.com/jhCOR/EgoOrientBench 获取。