LLM2D

摘要

arXiv:2410.21000v3 通知类型: 替换-交叉摘要：医疗视觉问答（MedVQA）在医学图像理解与自然语言处理的交叉领域中，由于其临床应用的特点，引起了越来越多的关注。通过解释医学图像并提供与相关临床问题精确的答案，MedVQA 有可能支持诊断决策，并减少诸如放射学等多个领域的工作负荷。尽管近期的方法主要依赖于统一的大规模预训练视觉-语言模型，但在这一领域对于更高效融合机制的研究仍然相对有限。在本文中，我们引入了一种融合模型OMniBAN，它结合了正交损失、多头注意力和双线性注意力网络，以实现高计算效率和良好的性能。我们进行了全面的实验，并展示了双线性注意力融合如何近似大型融合模型（如跨模态变换器）的表现。我们的结果显示，OMniBAN所需的参数 fewer 参数（大约为基于变换器的共注意机制的 2/3），且浮点运算次数（大约为 1/4）明显降低，同时在两个关键的 MedVQA 表基准测试中实现了相当甚至略有改进的整体性能和闭合问题。这种在效率与准确性之间的平衡表明，OMniBAN 可能是计算资源往往受限的真实世界医学图像问答问题的一个可行选项。