摘要
arXiv:2504.20922v1 早退出类型: cross
摘要:早退出(EEs)提供了一种通过在达到数据样本满意的预测置信度后动态终止推理来减少计算成本和延迟的有前途的方法。尽管许多工作将EEs集成到仅编码器的Transformer中,但它们在仅解码器架构以及更重要的是LLM领域中的新家族——Mamba模型中的应用仍然缺乏探索。这项工作引入了DYNAMAX,这是第一个利用Mamba架构的独特性质来实现早退出机制的框架。我们不仅将EEs集成到Mamba中,还将Mamba重新利用为一种高效的EE分类器,适用于基于Mamba和基于Transformer的LLM,展示了其灵活性。我们的实验使用了与Codestral 7B Mamba模型相比的Mistral 7B Transformer模型,并使用TruthfulQA、CoQA和TriviaQA等数据集来评估计算节省、准确性和一致性。结果突显了Mamba作为强大EE分类器的高度可适应性,并展示了其在不同NLP任务中平衡计算成本和性能质量方面的效率。通过利用Mamba固有的动态处理设计,我们为嵌入式应用和资源受限环境中的可扩展和高效推理开辟了途径。此研究强调了Mamba在重新定义LLM中的动态计算范式方面的变革潜力。