摘要
arXiv:2412.07030v4 通知类型: replace-cross
摘要: 多模态多跳问答(MMQA)要求在来自多个源的信息中进行图形和文本的推理。尽管视觉问答有了进展,但这一多跳设置仍因高质量数据集的缺乏而未得到充分探索。现有方法专注于单跳、单模态或短文本,限制了如解释包含长且多模态内容的教育文档等真实世界应用。为填补这一空白,我们引入了FM2DS,这是首个用于MMQA的高质量数据集框架。我们的方法包括一个五阶段流水线,涉及从Wikipedia获取相关多模态文档,合成高级问题和答案,并通过严格的验证标准确保数据质量。我们通过在合成数据集上训练模型并在两个基准测试(MultimodalQA和WebQA)上进行测试,来评估我们的方法。结果显示,在相同样本量下,使用我们合成数据训练的模型在平均精确匹配(EM)得分为1.9时比使用人类收集的数据训练的模型表现更佳。此外,我们引入了由FM2DS合成并由人类注释员精炼的M2QA-Bench数据集,其中包括1000个样本,这是首个用于长文档上MMQA的基准测试。我们相信我们的数据合成方法将为训练和评估MMQA模型提供坚实的基础。