摘要
arXiv:2505.10183v1
公告类型:cross
摘要:嵌入式人工智能(AI)系统,如自主机器人和智能汽车,越来越依赖于多样的异构加速器(例如,GPGPUs、NPUs、FPGAs)来满足严格的实时处理和能效需求。然而,供应商特定的专有通信库的普及造成了一系列互操作性障碍,阻碍了不同加速器类型之间的无缝协作,导致分布式AI工作负载中资源利用率低下和性能瓶颈。本文介绍了KAITIAN,这是一种新型的分布式通信框架,旨在弥补这一缺口。KAITIAN提供了统一的抽象层,该层能够智能地整合供应商优化的通信库以实现组内效率,同时利用通用通信协议以实现组间互操作性。关键的是,它包括一个负载自适应调度机制,能够根据设备的实际性能特征动态地在异构设备上平衡计算任务。KAITIAN作为PyTorch的扩展实现,并在包含NVIDIA GPU和Cambricon MLUs的测试平台上进行了严格的评估,结果表明,KAITIAN在分布式训练任务中的资源利用率和可扩展性方面取得了显著改进。实验结果表明,与基线的同构系统相比,KAITIAN可以将训练时间加速多达42%,同时引入的通信开销仅为2.8%-4.3%,并保持模型准确性。KAITIAN为复杂嵌入式AI应用中的更灵活和强大的异构计算铺平了道路。