LLM2D

摘要

arXiv:2502.06833v1 宣布类型: cross 摘要: 我们提出了熵自适应解码 (EAD)，这是一种基于预测不确定性动态切换不同大小模型的新颖方法，以实现高效的语言模型推理。通过监控模型逻辑运算分布中的滚动熵，我们的方法识别出足够使用较小模型的文本区域，并且只有在预测不确定性超过阈值时才会切换到较大模型。与维持输出完全准确性的推测性解码方法不同，EAD 以可控的输出差异为代价换取计算效率。我们的基准测试中的 MATH 数据集实验表明，EAD 在不同模型家族中均实现了显著的效率提升。使用 LLaMA 家族模型时，我们保持了 11B 模型 96.7% 的性能（50.4% 的准确性 vs 52.1%），但仅使用其 43% 的 token，计算成本减少了 41.5%。随着 Qwen 家族模型大小差异的增大，这些收益更加显著，我们实现了 14B 模型 92.9% 的性能（74.3% 的准确性 vs 80.0%），但仅使用其 25% 的 token，计算成本减少了 67%。这些结果的一致性表明，可以基于局部生成复杂性选择性地部署模型能力，从而显著优化语言模型计算。我们的发现表明，当前的模型推理方法可能在追求完全准确的输出方面过于谨慎，接受轻微的性能权衡可以实现巨大的计算成本降低。