摘要
arXiv:2502.04315v3 更新类型: replace-cross
摘要:最近在大型语言模型(LLMs)领域的进展展示了其在多种任务上的杰出性能。然而,这些模型通常以固定权重的形式部署,这限制了它们在推断过程中对现实世界数据固有的变化性进行动态适应的能力。本文引入了ChameleonLLM,这是一种新颖的框架,通过利用批处理感知聚类和实时生成低秩更新来实现LLM的推理时适应性。与传统的低秩适应(LoRA)方法或依赖于固定预学习均匀参数(可变掩码)的方法不同,我们的方法根据聚类批量的汇总统计信息,动态生成适应性修改以调整解码器权重。通过智能地分组相似的输入,并通过超网络计算上下文感知低秩更新,ChameleonLLM实现了显著的性能提升,超越了传统的LoRA方法,同时消除了维护多个专家模型的开销。我们的实验突显了该方法作为一种灵活且高度适应的解决方案用于语言模型推理的潜力。ChameleonLLM已开源以确保我们的实验的可复制性:https://anonymous.4open.science/r/ChamaleonLLM/