摘要
arXiv:2505.00232v1 类别: cross
摘要:受生成AI技术进步的推动,大型机器学习模型在图像处理、音频合成和语音识别等领域取得了革命性的进展。尽管基于服务器的部署仍是性能峰值的所在,但出于隐私和效率的考虑,对设备端推理的需求依然存在。鉴于GPU在设备端机器学习加速方面具有最广泛的适用性,我们呈现了ML Drift——一种优化框架,扩展了最先进的GPU加速推理引擎的功能。ML Drift使得设备端可以执行含有10到100倍以上参数的生成AI工作负载,这些工作负载远超过现有设备端生成AI模型的数量。ML Drift解决了跨GPU API开发所面临的复杂工程挑战,并确保在移动和桌面/笔记本平台之间广泛兼容,从而在资源受限的设备上部署更为复杂的模型。我们的GPU加速的ML/AI推理引擎相对于现有的开源GPU推理引擎实现了一个数量级的性能提升。