LLM2D

摘要

arXiv:2505.00232v1 类别: cross 摘要：受生成AI技术进步的推动，大型机器学习模型在图像处理、音频合成和语音识别等领域取得了革命性的进展。尽管基于服务器的部署仍是性能峰值的所在，但出于隐私和效率的考虑，对设备端推理的需求依然存在。鉴于GPU在设备端机器学习加速方面具有最广泛的适用性，我们呈现了ML Drift——一种优化框架，扩展了最先进的GPU加速推理引擎的功能。ML Drift使得设备端可以执行含有10到100倍以上参数的生成AI工作负载，这些工作负载远超过现有设备端生成AI模型的数量。ML Drift解决了跨GPU API开发所面临的复杂工程挑战，并确保在移动和桌面/笔记本平台之间广泛兼容，从而在资源受限的设备上部署更为复杂的模型。我们的GPU加速的ML/AI推理引擎相对于现有的开源GPU推理引擎实现了一个数量级的性能提升。