摘要
arXiv:2504.18562v1 交叉类型:cross
摘要:深度学习模型,尤其是大型变换器模型,在其中间层承载着大量的“记忆”——一种内置的世界,它包含了丰富的关系性和上下文知识。本文通过引入基于最新多模态模型Gemma 3的模块化架构,利用这一内置的世界来预测野火发生。我们开发了一个自定义的前馈模块,将表格化的野火特征转换为Gemma 3中间层变换器块所需的隐藏维度。我们冻结了这些Gemma 3子层——从而保持了其预训练的表示能力——而只训练较小的输入和输出网络。这种方法减少了可训练参数的数量,并降低了对有限的野火数据过度拟合的风险,同时保留了Gemma 3广泛知识的好处。在摩洛哥野火数据集上的评估表明,与标准的前馈网络和卷积基线相比,该方法具有更好的预测准确性和鲁棒性。消融研究证实,冻结的变换器层始终有助于更好的表示,强调了重新利用大型模型中间层作为一个学习的内置世界的可能性。我们的研究结果表明,在野火风险管理等关键环境应用中,战略性的预训练变换器模块化重用可以实现更高效、可解释的解决方案。