LLM2D

摘要

arXiv:2411.12469v4 宣告类型: replace-cross 摘要：大型语言模型（LLMs）及其多模态变体的最新进展在各个领域取得了显著进展，展示了令人印象深刻的性能和前所未有的潜力。在无处不在的连接时代，利用通信网络分发智能是一种变革性的概念，设想边端设备可访问的AI驱动服务。然而，将大型模型从云端推送到资源受限的环境中面临重大挑战。在低端设备上进行模型推理会导致过多的延迟和性能瓶颈，而在带宽有限的网络上传输原始数据会导致高昂的通信开销。本文提出了一种名为AI Flow的框架，通过联合利用设备、边缘节点和云服务器上可用的异构资源，简化推理过程，使智能在网络中流动。为了促进多个计算节点之间的协作，所提出框架探索了通信网络系统设计范式的转变，从传输信息流转变为传输智能流，其中通信的目标是任务导向的，并且融合到了推理过程中。实验结果通过图像字幕用例展示了所提出框架的有效性，展示了在保持高质量字幕的同时减少响应延迟的能力。本文作为AI Flow的立场文件，阐述了其动机、挑战和原则。