摘要
arXiv:2504.20348v2 通知类型: replace-cross
摘要: 大型语言模型(LLMs)使边缘人工智能系统能够实时调用函数,但这也导致了显著的计算开销,进而产生了高昂的能源消耗和碳排放。现有方法虽然优化了性能,但却忽视了可持续性,使其在能源受限的环境中效率低下。我们提出了CarbonCall,这是一种具有可持续性意识的函数调用框架,集成了动态工具选择、碳意识执行和量化LLM适应。CarbonCall根据实时碳强度预测调整功率阈值,并在功率限制条件下切换模型变体以维持高每秒令牌吞吐量。在NVIDIA Jetson AGX Orin上的实验表明,CarbonCall能够将碳排放减少52%,功耗减少30%,执行时间减少30%,同时还保持了高效率。