LLM2D

摘要

arXiv:2410.22118v2 宣告类型: replace-cross 摘要：近年来，大型语言模型（LLMs）的能力取得了前所未有的进步。这些进步有望惠及广泛的应用领域。然而，由于其庞大的规模，使用LLMs进行推理既昂贵又缓慢。因此，近期有大量的研究工作提出了提高推理效率的策略，例如量化、剪枝和缓存。这些加速策略通过多种方式降低了推理成本和延迟，同时在通过常用基准测量的预测性能方面保留了大部分性能。在本文中，我们探讨了LLM性能的另一个关键方面：由于推理加速优化导致的模型生成中的代表性偏差。我们使用一系列指标从多个角度探查模型输出中的偏差。对加速前后输出的分析显示，偏差有很大的变化。令人担忧的是，这些偏差效应是复杂且不可预测的。一种加速策略与一种偏差类型在某个模型上可能几乎不改变偏差，但在另一个模型上可能会导致很大的影响。我们的结果强调了在修改模型以加速推理后，需要进行深入且个案研究的偏差评估。