LLM2D

摘要

arXiv:2412.07030v3 宣告类型: replace-cross 摘要：多模态多跳问答是一个复杂的任务，要求在图像和文本等多种信息源之间进行推理以回答问题。尽管在视觉问答领域已经取得了显著的进步，但由于缺乏高质量的数据集，多跳设置仍未被探索。目前的方法主要关注单跳问答或单一模态，使得它们不适合现实世界的情况，例如分析多模态教育资源、总结冗长的学术文章或解释综合图表、图像和文本的科学研究。为了解决这一缺口，我们提出了一种新的方法论，并引入了第一个用于创建高质量数据集的框架，该数据集使得可以训练进行多模态多跳问答的模型。我们的方法包含一个五阶段管道，涉及从维基百科获取相关多模态文档，合成生成高级问题和答案，并通过严格的验证标准确保数据质量。我们通过在我们合成的数据集上训练模型并在两个基准测试上进行测试来评估我们的方法论，结果显示，使用相同样本大小时，我们合成数据集上训练的模型在精确匹配（EM）方面平均优于从人类收集的数据集上训练的模型1.9的性能。我们相信我们的数据合成方法将为训练和评估多模态多跳问答模型提供坚实的基础。