LLM2D

摘要

arXiv:2504.20101v2 通知类型: 替换交叉摘要: 尽管在开源和成本效益高的大型语言模型（LLMs）的研究与开发方面取得了显著进展，但服务可扩展性仍然是一个关键挑战，尤其对于那些寻求部署和测试其LLM创新的小型组织和个人来说。受利用分散式overlay节点来增加吞吐量和可用性的peer-to-peer网络的启发，我们提出了一种名为GenTorrent的LLM服务overlay，它利用分散式贡献者的计算资源。我们识别出了四项固有的研究问题，以使这样的分散式基础设施得以实现：1) overlay网络组织；2) LLM通信隐私；3) overlay路由以提高资源效率；4) 服务质量验证。本工作首次针对分散式LLM服务的这些基本问题进行了系统研究。在一组分散节点上实现的原型的评估结果表明，GenTorrent相比于没有overlay路由的基本设计相比，实现了超过50%的延迟降低。此外，安全功能对服务延迟和吞吐量的开销很小。我们认为本作开辟了未来AI服务能力民主化和规模化的新方向。