LLM2D

摘要

arXiv:2502.14149v1 类型:跨境摘要：视觉语言模型（VLMs）在视觉问答（VQA）中的应用为手术室内决策增强、促进直观互动和显著提升外科教育提供了独特机会。然而，由于数据集有限以及全微调预训练权重时过拟合并导致灾难性遗忘的风险，开发适用于手术VQA的VLM具有挑战性。尽管参数效率的方法如LoRA（低秩适应）和MoRA（矩阵低秩适应）解决了适应性挑战，但它们均一致的参数分布忽视了深度网络中的特征层次结构，即早期层学习一般特征所需参数多于后期层。本研究引入了扩展的PitVQA（PitVQA++）以及带有开放性PitVQA数据集和向量矩阵低秩适应（Vector-MoLoRA）的创新VLM微调方法，将GPT-2适应于垂体手术。开放性PitVQA包含来自25个手术视频约101,803帧，以及超过745,972个问题-答案句子对，涵盖了手术阶段和步骤识别、上下文理解、工具检测、定位以及交互识别等关键要素。Vector-MoLoRA结合了LoRA和MoRA的原则，开发了一种矩阵低秩适应策略，利用向量排名分配更多参数给早期层，逐渐减少后期层的参数。该方法在开放性PitVQA和EndoVis18-VQA数据集上的验证有效缓解了灾难性遗忘，显著增强了与最新基线相比的性能。此外，我们的风险覆盖分析突显了其处理不确定预测时的增强可靠性和可信度。我们的源代码和数据集可在https://github.com/HRL-Mike/PitVQA-Plus 获取。