LLM2D
使用混合CNN-Transformer-集成架构的视网膜基金us多病种图像分类
Retinal Fundus Multi-Disease Image Classification using Hybrid CNN-Transformer-Ensemble Architectures
作者: Deependra Singh, Saksham Agarwal, Subhankar Mishra
发布日期: 3/28/2025
arXiv ID: oai:arXiv.org:2503.21465v1

摘要

arXiv:2503.21465v1 交叉类型: cross 摘要:我们的研究受到全球范围内大量受视网膜疾病影响的人口的迫切需求的启发,这些疾病分布均匀但缺乏专门的医疗专业知识,特别是在非城市地区。我们的主要目标是通过开发一个全面的诊断系统,仅从眼底图像中准确预测视网膜疾病来弥合这一医疗差距。然而,由于受限的、多样化的数据集和不均衡的类别分布,我们遇到了重大的挑战。为了解决这些问题,我们开发了创新策略。我们的研究引入了新颖的方法,结合了更深的卷积神经网络(CNNs)、Transformer 编码器以及串行和并行的集成架构,将20种疾病标签分为眼底图像进行分类。我们的总体目标是在实际应用中评估这些先进模型的潜力,并强烈关注提高各种条件下视网膜疾病诊断的准确性。重要的是,我们的努力超越了基线模型的结果,其中C-Tran集成模型表现最佳,获得了令人瞩目的0.9166的模型得分,超越了基线得分0.9。此外,IEViT模型的实验展示了同样令人鼓舞的结果,提高了计算效率。我们还展示了动态像素块提取和在计算机视觉任务中融合领域知识的有效性。总之,我们的研究旨在在视网膜疾病诊断领域做出重要贡献,旨在为欠发达地区的可及性医疗解决方案提供支持,并致力于进行全面和准确的疾病预测。