LLM2D

摘要

arXiv:2504.15983v1 交叉公告类型: cross 摘要：对高效自然语言处理（NLP）系统的高需求推动了轻量级语言模型的发展。先前在这个领域的大部分工作主要集中在手动设计或基于训练的神经架构搜索（NAS）方法上。最近，提出了零样本NAS方法，可以在无需训练的情况下评估语言模型。然而，常用的零样本NAS方法往往面临偏见评估指标和计算效率低下的挑战。在本文中，我们引入了一种名为W-PCA（加权主成分分析）的新型零样本NAS方法，该方法特别针对轻量级语言模型。我们的方法利用了两个评估代理指标：模型参数数量和前馈神经网络（FFN）层中累积贡献超过阈值η的主要成分数量。此外，通过消除梯度计算的需求，我们优化了评估时间，从而提高了设计和评估轻量级语言模型的效率。我们分别在GLUE和SQuAD数据集上进行了比较分析，以评估我们的方法。结果表明，与一-shot NAS方法相比，我们的方法显著减少了训练时间，并在测试阶段获得了比先前最先进的基于训练的方法更高的分数。此外，我们还在FlexiBERT搜索空间采样的数据集上进行了排名评估。我们的方法表现出更高的排名相关性，并进一步减少了求解时间，相比其他需要梯度计算的零样本NAS方法。