LLM2D

摘要

arXiv:2503.19120v1 类型: cross 摘要：文档视觉问答(VQA)模型在过去的几年中取得了惊人的进步，已经接近或达到了某些基准测试中的human performance。我们认为，流行的基准测试所使用的常见评估指标未能考虑到模型输出的语义和多模态准确性。因此，幻觉和重大语义错误与广泛依据的输出以相同方式处理，评估分数未能反映模型的推理能力。为了解决这一问题，我们提出了一种新的评估方法，该方法考虑了输出的语义特性和输出在输入文档中的多模态位置所体现的准确性。我们提出的方法可以根据用户的需求进行参数化配置。我们使用人类判断来验证评分方法，并展示了其对现有流行排行榜的潜在影响。通过广泛的分析，我们证明了我们提出的方法所生成的分数是衡量模型稳健性的更好指标，并倾向于对更准确的答案给予更高的奖励。