LLM2D

摘要

**背景：**许多开源皮肤癌图像数据集来自在皮肤色调较浅的国家进行的临床试验。由于这种色调不平衡，从这些数据集中得出的机器学习模型在检测浅肤色人群的皮肤癌方面可能表现良好。这些模型中任何色调偏差都可能引发公平问题，并降低公众对人工智能健康领域的信任。 **方法：**我们检查了来自国际皮肤影像合作组织 (ISIC) 档案的图像子集，这些图像提供了色调信息。该子集存在明显的色调不平衡。这些不平衡可能解释了模型的色调偏差。为了解决这个问题，我们使用不平衡数据集和平衡数据集训练模型，以进行比较。这些数据集用于训练深度卷积神经网络模型，以将图像分类为恶性或良性。然后，我们根据选择率评估模型对深色或浅色肤色的差异影响。 **结果：**使用不平衡数据集，我们发现该模型在检测浅色肤色的恶性图像方面明显更出色，差异影响为 0.577。使用平衡数据集，我们发现该模型在检测浅色肤色与深色肤色的恶性图像方面也明显更出色，差异影响为 0.684。使用不平衡或平衡数据集训练模型仍然会导致差异影响远低于 0.80 的标准阈值，这表明该模型在肤色方面存在偏差。 **结论：**结果表明，典型的皮肤癌机器学习模型可能存在色调偏差。这些结果提供了证据，表明诊断或色调不平衡不是偏差的原因。需要其他技术来识别和解决这些模型中的偏差，这是未来研究的领域。