摘要
arXiv:2504.00002v1 交叉公告类型
摘要:大型语言模型(LLMs)的最新进展激发了在移动设备上部署这些模型的兴趣,以能够在不依赖云连接的情况下启用新的应用程序。然而,在资源受限的设备上部署LLMs的效率限制构成了重大挑战。在本文中,我们进行了一次全面的测量研究,评估了在移动端、边缘端和云端部署LLM应用程序之间的效率权衡。我们实现了一个简化的基于LLM的应用程序AutoLife-Lite,该应用程序通过分析智能手机传感器数据来推断用户位置和活动上下文。我们的实验发现:(1)只有小尺寸的LLM(<4B参数)能够在强大的移动设备上成功运行,尽管它们在质量上与大型模型相比存在限制;(2)模型压缩在降低硬件要求方面是有效的,但可能导致性能显著下降;(3)在移动设备上运行具有有意义输出的LLM的时间延迟显著(>30秒),而云服务表现出更好的时间效率(<10秒);(4)边缘部署在延迟和模型能力之间提供了中间权衡,但在基于CPU和基于GPU的环境中结果不同。这些发现为系统设计者提供了关于当前限制和未来方向的有价值见解,在移动端部署LLM应用程序方面。