LLM2D

摘要

arXiv:2504.20101v1 宣告类型: cross 摘要: 在开源和成本效益高的大型语言模型（LLM）的研究与开发方面取得了显著进展，但服务可扩展性仍然是一个关键挑战，尤其是在小组织和个人希望部署和测试其LLM创新方面。受利用分散式-overlay节点增加吞吐量和可用性的点对点网络的启发，我们提出了GenTorrent，这是一种利用分散式贡献者的计算资源的LLM服务overlay。我们确定了启用这种分散式基础设施时固有的四个关键研究问题：1) overlay网络组织；2) LLM通信隐私；3) overlay转发以提高资源效率；4) 服务质量验证。本研究首次对分散式LLM服务背景下这些基本问题进行了系统研究。实现于一组分散式节点上的原型的评估结果表明，与没有overlay转发的基本设计相比，GenTorrent实现了超过50%的延迟减少。而且，安全功能对服务延迟和吞吐量的影响最小。我们认为，这项工作为未来AI服务能力的民主化和扩展开辟了一个新方向。