LLM2D

摘要

6G 愿景旨在将先进智能嵌入网络并使其更贴近用户，这需要对边缘设备上的生成式人工智能 (GenAI) 模型进行系统评估。基于开放式无线接入网 (ORAN) 和“网络一体机”的快速涌现的解决方案强烈主张使用低成本的现成组件来简化和提高部署效率，例如在提供农村连接方面。在这种情况下，大型语言模型 (LLM) 在现成边缘设备上的概念架构、硬件测试平台和精确性能量化在很大程度上仍未得到探索。本研究调查了在单个商品树莓派上进行计算密集型 LLM 推理的情况，该树莓派作为 ORAN 的边缘测试平台。我们使用轻量级 Kubernetes 分布式系统 (K3s) 和模块化提示实现，在一个树莓派 5 集群上研究了各种 LLM，包括小型、中型和大型模型。我们通过分析吞吐量、延迟、准确性和效率来研究其可行性和局限性。我们的研究结果表明，仅 CPU 部署轻量级模型（如 Yi、Phi 和 Llama3）可以有效支持边缘应用，实现 5 到 12 个令牌/秒的生成吞吐量，CPU 和 RAM 使用率低于 50%。我们得出结论，边缘上的 GenAI 在 6G 网络中无需依赖云基础设施即可在远程或带宽受限的环境中提供本地推理。