LLM2D

摘要

arXiv:2503.22982v1 类别: cross 摘要：通过提供推理卸载服务，边缘推理推动了在网络边缘的AI应用的迅速增长。然而，在严格的延迟要求下实现高任务吞吐量仍然是一个重大挑战。为解决这一问题，我们为多用户边缘推理开发了一个参数共享的AI模型加载（PartialLoading）框架，利用了两个关键见解：1）大部分延迟来源于将AI模型加载到服务器GPU内存的过程；2）不同AI模型可以共享大量参数，因此应该避免冗余加载。为此，我们提出了一个多用户调度和频谱带宽分配的联合问题，通过利用模型之间共享的参数块来最大化任务吞吐量。直觉是，合理调度用户请求，以便在连续加载的模型之间重用共享的参数块，从而大幅减少模型加载时间。为了便于求解，我们将问题分解为两个子问题，即用户调度和带宽分配，证明了逐个解决它们等价于解决原始问题。由于该问题的NP难性，我们首先研究了一个重要的特殊情况，称为“底层共享”情况，其中AI模型在群组内共享一些底层层，并设计了一个基于动态规划的算法，以在多项式时间内获得最优解。对于一般情况，其中共享的参数块出现在AI模型的任意位置，我们提出了一种贪婪启发式算法，以高效地获得次优解。仿真结果表明，在截止时间约束条件下，所提出的方法在利用参数共享时不考虑用户调度时显著提高了任务吞吐量。