LLM2D
自适应熵解码:高效推理的动态模型切换
Entropy Adaptive Decoding: Dynamic Model Switching for Efficient Inference
作者: Toby Simonds
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2502.06833v1

摘要

arXiv:2502.06833v1 宣布类型: cross 摘要: 我们提出了熵自适应解码 (EAD),这是一种基于预测不确定性动态切换不同大小模型的新颖方法,以实现高效的语言模型推理。通过监控模型逻辑运算分布中的滚动熵,我们的方法识别出足够使用较小模型的文本区域,并且只有在预测不确定性超过阈值时才会切换到较大模型。与维持输出完全准确性的推测性解码方法不同,EAD 以可控的输出差异为代价换取计算效率。我们的基准测试中的 MATH 数据集实验表明,EAD 在不同模型家族中均实现了显著的效率提升。使用 LLaMA 家族模型时,我们保持了 11B 模型 96.7% 的性能(50.4% 的准确性 vs 52.1%),但仅使用其 43% 的 token,计算成本减少了 41.5%。随着 Qwen 家族模型大小差异的增大,这些收益更加显著,我们实现了 14B 模型 92.9% 的性能(74.3% 的准确性 vs 80.0%),但仅使用其 25% 的 token,计算成本减少了 67%。这些结果的一致性表明,可以基于局部生成复杂性选择性地部署模型能力,从而显著优化语言模型计算。我们的发现表明,当前的模型推理方法可能在追求完全准确的输出方面过于谨慎,接受轻微的性能权衡可以实现巨大的计算成本降低。