LLM2D

摘要

大型多模态模型 (LMM) 在理解人类指令方面表现出色，并在广泛的任务中展现出非凡的成果。来自人类反馈的强化学习 (RLHF) 和 AI 反馈 (RLAIF) 通过将 LLM 与特定偏好对齐，进一步完善了 LLM。这些方法主要使用基于排名的反馈来对整个生成进行评估。借助先进的 AI 模型（教师），例如 GPT-4 和 Claude 3 Opus，我们可以请求各种类型的详细反馈，而这些反馈对于人类来说成本很高。我们提出了一种两阶段算法 ARES，该算法交替进行强化学习 (RL) 和监督微调 (SFT)。首先，我们请求教师评估每个句子对解决思维链 (CoT) 中问题的贡献程度。这种句子级别的反馈使我们能够考虑各个有价值的部分，为 RL 程序提供更细粒度的奖励。其次，我们在 RL 阶段之后要求教师纠正错误的推理。RL 程序需要付出巨大的努力来进行超参数调整，并且通常会产生重复词语和句子不完整等错误。借助纠正反馈，我们通过 SFT 稳定 RL 微调模型。我们在多模态数据集 ScienceQA 和 A-OKVQA 上进行了实验，以证明我们提案的有效性。ARES 推理推理在 GPT-4o 评判下，在基线模型中取得了约 70% 的胜率。此外，我们观察到，改进的推理推理平均导致多模态数据集的推理答案准确率提高了 2.5%。