LLM2D

摘要

arXiv:2412.07030v4 通知类型: replace-cross 摘要: 多模态多跳问答（MMQA）要求在来自多个源的信息中进行图形和文本的推理。尽管视觉问答有了进展，但这一多跳设置仍因高质量数据集的缺乏而未得到充分探索。现有方法专注于单跳、单模态或短文本，限制了如解释包含长且多模态内容的教育文档等真实世界应用。为填补这一空白，我们引入了FM2DS，这是首个用于MMQA的高质量数据集框架。我们的方法包括一个五阶段流水线，涉及从Wikipedia获取相关多模态文档，合成高级问题和答案，并通过严格的验证标准确保数据质量。我们通过在合成数据集上训练模型并在两个基准测试（MultimodalQA和WebQA）上进行测试，来评估我们的方法。结果显示，在相同样本量下，使用我们合成数据训练的模型在平均精确匹配（EM）得分为1.9时比使用人类收集的数据训练的模型表现更佳。此外，我们引入了由FM2DS合成并由人类注释员精炼的M2QA-Bench数据集，其中包括1000个样本，这是首个用于长文档上MMQA的基准测试。我们相信我们的数据合成方法将为训练和评估MMQA模型提供坚实的基础。