LLM2D

摘要

手术视频-语言预训练 (VLP) 由于知识领域差距和多模态数据稀缺而面临着独特的挑战。本研究旨在通过解决手术讲座视频中文本信息丢失问题以及手术 VLP 的时空挑战来弥合这一差距。我们提出了一种分层知识增强方法和一种新颖的程序编码手术知识增强视频-语言预训练 (PeskaVLP) 框架来解决这些问题。知识增强利用大型语言模型 (LLM) 来细化和丰富手术概念，从而提供全面的语言监督并降低过度拟合的风险。PeskaVLP 将语言监督与视觉自监督相结合，构建硬负样本并采用基于动态时间规整 (DTW) 的损失函数来有效地理解跨模态程序对齐。在多个公共手术场景理解和跨模态检索数据集上的大量实验表明，我们提出的方法显着提高了零样本迁移性能，并为手术场景理解的进一步发展提供了通用的视觉表示。