LLM2D

摘要

arXiv:2503.10666v2 宣告类型: replace-cross 摘要：大型语言模型（LLMs）已在搜索引擎、代码生成和文本生成等多个领域得到了广泛应用。然而，它们的采用面临的主要问题之一是推理成本高昂，这影响了它们的可持续性和经济可行性。在本研究中，我们通过实证研究不同提示和响应特征如何直接影响LLM推理能耗。我们利用三种开源的基于变换器的LLM，针对三种任务类型——问答、情感分析和文本生成进行了实验。对于每次推理，我们分析了提示和响应的特征（长度、语义含义、耗时、能耗）。我们的结果表明，即使面对相同的任务，模型生成的响应具有不同的特征，并且随后展现出不同的能耗模式。我们发现，提示长度的差异在很大程度上不及任务本身的语义含义显著。此外，我们还识别出与特定任务相关的特定关键词，这些关键词在其关联任务中具有更高的或更低的能耗。这些发现突显了在优化推理效率方面提示设计的重要性。我们得出结论，提示的语义含义和某些任务相关的关键词对推理成本有显著影响，这将引导我们进一步探索创建能效适应性LLM的方法。