LLM2D

摘要

眼科疾病是一个重大的全球性健康问题，需要使用先进的精确诊断工具。光学相干断层扫描 (OCT) 成像能够提供视网膜的高分辨率横截面图像，已成为眼科中一项关键的成像模式。传统上，医生会手动从这种诊断图像中检测各种疾病和生物标志物。近年来，深度学习技术已广泛用于医疗诊断任务，从而实现快速准确的诊断。本文提出了一种使用卷积神经网络 (CNN) 和视觉Transformer 融合的方法来检测眼科生物标志物。虽然 CNN 擅长在图像的局部上下文中提取特征，但 Transformer 以其从图像的全局上下文中提取特征的能力而闻名。通过融合这两种技术，我们可以利用两者的优势。我们的方法已在 OLIVES 数据集上实现，用于从 OCT 图像中检测 6 种主要生物标志物，并显示了数据集上宏观平均 F1 分数的显著提高。