LLM2D

摘要

arXiv:2410.21000v2 通知类型: 替换-交叉摘要：医学视觉问答（MedVQA）在计算机视觉和自然语言处理的交叉领域引起了越来越多的关注。通过解释医学图像并提供对相关临床查询的精确回答，MedVQA 有潜力支持诊断决策并减少各个领域的负担，尤其是在放射学领域。尽管最近的方法主要依赖于统一的大规模预训练视觉-语言模型，但在这一领域对更高效的融合机制的研究相对有限。在本文中，我们提出了一种名为 OMniBAN 的新型融合模型，该模型将正交性损失、多头注意力和双线性注意力网络结合起来，实现了高效计算与良好性能并存。我们进行了全面的实验，并提供了关于双线性注意力融合如何逼近像跨模态变换器之类的大型融合模型性能的见解。我们的结果显示，OMniBAN 在关键的 MedVQA 基准测试上优于传统方法，同时保持较低的计算成本。这种在效率和准确性之间的平衡表明，OMniBAN 可能在计算资源通常受限的实际医疗图像问答场景中是一个可行的选择。