LLM2D
GenTorrent: 使用过度网络扩展大型语言模型服务
GenTorrent: Scaling Large Language Model Serving with An Overley Network
作者: Fei Fang, Yifan Hua, Shengze Wang, Ruilin Zhou, Yi Liu, Chen Qian, Xiaoxue Zhang
发布日期: 4/30/2025
arXiv ID: oai:arXiv.org:2504.20101v1

摘要

arXiv:2504.20101v1 宣告类型: cross 摘要: 在开源和成本效益高的大型语言模型(LLM)的研究与开发方面取得了显著进展,但服务可扩展性仍然是一个关键挑战,尤其是在小组织和个人希望部署和测试其LLM创新方面。受利用分散式-overlay节点增加吞吐量和可用性的点对点网络的启发,我们提出了GenTorrent,这是一种利用分散式贡献者的计算资源的LLM服务overlay。我们确定了启用这种分散式基础设施时固有的四个关键研究问题:1) overlay网络组织;2) LLM通信隐私;3) overlay转发以提高资源效率;4) 服务质量验证。本研究首次对分散式LLM服务背景下这些基本问题进行了系统研究。实现于一组分散式节点上的原型的评估结果表明,与没有overlay转发的基本设计相比,GenTorrent实现了超过50%的延迟减少。而且,安全功能对服务延迟和吞吐量的影响最小。我们认为,这项工作为未来AI服务能力的民主化和扩展开辟了一个新方向。