摘要
本研究提出了一种利用组织病理学图像进行乳腺癌分类的全新且准确的方法。该研究系统地比较了不同图像数据集上领先的卷积神经网络 (CNN) 模型,识别了它们的最佳超参数,并根据分类效率对它们进行排名。为了最大限度地提高我们探索的每个模型的分类精度,我们研究了数据增强、替代全连接层、模型训练超参数设置以及重新训练模型与使用预训练权重相比的优势。我们的方法包括几个原创概念,包括序列化生成的数据集以确保跨训练运行的一致数据条件并显著减少训练时间。结合结果的自动整理,这使得能够探索超过 2000 种训练排列——如此全面的比较尚属前所未有。我们的发现确立了实现独立 CNN 模型的出色分类精度所需的设置,并按模型效率对它们进行排名。基于这些结果,我们提出了将三个高性能独立 CNN 模型与不同的分类器堆叠在一起的集成架构,从而提高了分类精度。能够系统地运行如此多的模型排列以获得最佳结果,产生了非常高质量的结果,包括 BreakHis x40 和 BreakHis x200 的 99.75% 以及 Bach 数据集在分成训练集、验证集和测试集时的 95.18%。Bach 在线盲挑战使用这种方法获得了 89%。虽然本研究基于乳腺癌组织病理学图像数据集,但该方法同样适用于其他医学图像数据集。