LLM2D
FM2DS: 少量样本多模态多跳数据合成与知识蒸馏用于问答
FM2DS: Few-Shot Multimodal Multihop Data Synthesis with Knowledge Distillation for Question Answering
作者: Amirhossein Abaskohi, Spandana Gella, Giuseppe Carenini, Issam H. Laradji
发布日期: 4/7/2025
arXiv ID: oai:arXiv.org:2412.07030v4

摘要

arXiv:2412.07030v4 通知类型: replace-cross 摘要: 多模态多跳问答(MMQA)要求在来自多个源的信息中进行图形和文本的推理。尽管视觉问答有了进展,但这一多跳设置仍因高质量数据集的缺乏而未得到充分探索。现有方法专注于单跳、单模态或短文本,限制了如解释包含长且多模态内容的教育文档等真实世界应用。为填补这一空白,我们引入了FM2DS,这是首个用于MMQA的高质量数据集框架。我们的方法包括一个五阶段流水线,涉及从Wikipedia获取相关多模态文档,合成高级问题和答案,并通过严格的验证标准确保数据质量。我们通过在合成数据集上训练模型并在两个基准测试(MultimodalQA和WebQA)上进行测试,来评估我们的方法。结果显示,在相同样本量下,使用我们合成数据训练的模型在平均精确匹配(EM)得分为1.9时比使用人类收集的数据训练的模型表现更佳。此外,我们引入了由FM2DS合成并由人类注释员精炼的M2QA-Bench数据集,其中包括1000个样本,这是首个用于长文档上MMQA的基准测试。我们相信我们的数据合成方法将为训练和评估MMQA模型提供坚实的基础。