LLM2D
ARES:交替强化学习和监督微调,通过多元化人工智能反馈增强多模态链式思考推理
ARES: Alternating Reinforcement Learning and Supervised Fine-Tuning for Enhanced Multi-Modal Chain-of-Thought Reasoning Through Diverse AI Feedback
作者: Ju-Seung Byun, Jiyun Chun, Jihyung Kil, Andrew Perrault
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2407.00087v2

摘要

大型多模态模型 (LMM) 在理解人类指令方面表现出色,并在广泛的任务中展现出非凡的成果。来自人类反馈的强化学习 (RLHF) 和 AI 反馈 (RLAIF) 通过将 LLM 与特定偏好对齐,进一步完善了 LLM。这些方法主要使用基于排名的反馈来对整个生成进行评估。借助先进的 AI 模型(教师),例如 GPT-4 和 Claude 3 Opus,我们可以请求各种类型的详细反馈,而这些反馈对于人类来说成本很高。我们提出了一种两阶段算法 ARES,该算法交替进行强化学习 (RL) 和监督微调 (SFT)。首先,我们请求教师评估每个句子对解决思维链 (CoT) 中问题的贡献程度。这种句子级别的反馈使我们能够考虑各个有价值的部分,为 RL 程序提供更细粒度的奖励。其次,我们在 RL 阶段之后要求教师纠正错误的推理。RL 程序需要付出巨大的努力来进行超参数调整,并且通常会产生重复词语和句子不完整等错误。借助纠正反馈,我们通过 SFT 稳定 RL 微调模型。我们在多模态数据集 ScienceQA 和 A-OKVQA 上进行了实验,以证明我们提案的有效性。ARES 推理推理在 GPT-4o 评判下,在基线模型中取得了约 70% 的胜率。此外,我们观察到,改进的推理推理平均导致多模态数据集的推理答案准确率提高了 2.5%。