摘要
arXiv:2504.20101v2 通知类型: 替换交叉
摘要: 尽管在开源和成本效益高的大型语言模型(LLMs)的研究与开发方面取得了显著进展,但服务可扩展性仍然是一个关键挑战,尤其对于那些寻求部署和测试其LLM创新的小型组织和个人来说。受利用分散式overlay节点来增加吞吐量和可用性的peer-to-peer网络的启发,我们提出了一种名为GenTorrent的LLM服务overlay,它利用分散式贡献者的计算资源。我们识别出了四项固有的研究问题,以使这样的分散式基础设施得以实现:1) overlay网络组织;2) LLM通信隐私;3) overlay路由以提高资源效率;4) 服务质量验证。本工作首次针对分散式LLM服务的这些基本问题进行了系统研究。在一组分散节点上实现的原型的评估结果表明,GenTorrent相比于没有overlay路由的基本设计相比,实现了超过50%的延迟降低。此外,安全功能对服务延迟和吞吐量的开销很小。我们认为本作开辟了未来AI服务能力民主化和规模化的新方向。