LLM2D

摘要

arXiv:2504.18562v1 交叉类型：cross 摘要：深度学习模型，尤其是大型变换器模型，在其中间层承载着大量的“记忆”——一种内置的世界，它包含了丰富的关系性和上下文知识。本文通过引入基于最新多模态模型Gemma 3的模块化架构，利用这一内置的世界来预测野火发生。我们开发了一个自定义的前馈模块，将表格化的野火特征转换为Gemma 3中间层变换器块所需的隐藏维度。我们冻结了这些Gemma 3子层——从而保持了其预训练的表示能力——而只训练较小的输入和输出网络。这种方法减少了可训练参数的数量，并降低了对有限的野火数据过度拟合的风险，同时保留了Gemma 3广泛知识的好处。在摩洛哥野火数据集上的评估表明，与标准的前馈网络和卷积基线相比，该方法具有更好的预测准确性和鲁棒性。消融研究证实，冻结的变换器层始终有助于更好的表示，强调了重新利用大型模型中间层作为一个学习的内置世界的可能性。我们的研究结果表明，在野火风险管理等关键环境应用中，战略性的预训练变换器模块化重用可以实现更高效、可解释的解决方案。