摘要
arXiv:2503.10666v2 宣告类型: replace-cross
摘要:大型语言模型(LLMs)已在搜索引擎、代码生成和文本生成等多个领域得到了广泛应用。然而,它们的采用面临的主要问题之一是推理成本高昂,这影响了它们的可持续性和经济可行性。在本研究中,我们通过实证研究不同提示和响应特征如何直接影响LLM推理能耗。我们利用三种开源的基于变换器的LLM,针对三种任务类型——问答、情感分析和文本生成进行了实验。对于每次推理,我们分析了提示和响应的特征(长度、语义含义、耗时、能耗)。我们的结果表明,即使面对相同的任务,模型生成的响应具有不同的特征,并且随后展现出不同的能耗模式。我们发现,提示长度的差异在很大程度上不及任务本身的语义含义显著。此外,我们还识别出与特定任务相关的特定关键词,这些关键词在其关联任务中具有更高的或更低的能耗。这些发现突显了在优化推理效率方面提示设计的重要性。我们得出结论,提示的语义含义和某些任务相关的关键词对推理成本有显著影响,这将引导我们进一步探索创建能效适应性LLM的方法。