摘要
arXiv:2502.04315v1 Announce Type: cross
摘要:近年来,大型语言模型(LLMs)在多样化的任务中展示了卓越的性能。然而,这些模型通常在固定权重下部署,这限制了它们在推理过程中适应真实世界数据内在变异性的能力。本文介绍了一种名为ChamaleonLLM的新框架,该框架通过利用批处理感知聚类和实时生成低秩更新来实现LLMs的推理时自适应。与传统的低秩适应(LoRA)方法或依赖预学习固定集变体的方法(如固定掩码)不同,我们的方法基于聚类批次的聚合统计智能地生成解码器权重的自适应修改。通过智能地分组相似的输入并在超网络的帮助下计算上下文感知的低秩更新,ChamaleonLLM 实现了显著的性能提升,超越了传统的 LoRA 方法,同时消除了维护多个专家模型的开销。我们的实验突显了该方法作为一种灵活且高度适应的语言模型推理解决方案的潜力。ChamaleonLLM 已开源以确保实验的可再现性:https://anonymous.4open.science/r/ChamaleonLLM/