LLM2D

摘要

arXiv:2504.16130v1 宣布类型: cross 摘要：拉曼光谱作为一种强大的工具，用于分析物质的化学信息。结合拉曼光谱与深度学习方法能够实现快速的定性和定量材料分析。大多数现有方法采用监督学习方法。尽管监督学习在光谱分析中已经达到了令人满意的准确度，但仍然受限于标注数据集的成本高昂和数量有限。当光谱标注具有挑战性或标注数据量不足时，监督学习在光谱材料识别方面的表现会下降。为了解决从未标注光谱中提取特征的挑战，我们提出了一个基于掩码自编码器的自监督学习范式，称为SMAE。SMAE在预训练过程中不需要任何光谱标注。通过随机掩码和随后重构光谱信息，模型学习到关键的光谱特征。重构后的光谱具有一定的去噪性质，使得信噪比（SNR）提高了一倍多。利用掩码预训练所获得的网络权重，SMAE在病原菌菌株数据集中达到80%以上的聚类准确率，相比经典的无监督方法和其它最先进的深度聚类方法显示出显著改进。在使用有限标注数据对网络进行微调后，SMAE在测试集上的识别准确率为83.90%， competing with supervised ResNet（83.40%）。