LLM2D

摘要

arXiv:2505.10183v1 公告类型：cross 摘要：嵌入式人工智能（AI）系统，如自主机器人和智能汽车，越来越依赖于多样的异构加速器（例如，GPGPUs、NPUs、FPGAs）来满足严格的实时处理和能效需求。然而，供应商特定的专有通信库的普及造成了一系列互操作性障碍，阻碍了不同加速器类型之间的无缝协作，导致分布式AI工作负载中资源利用率低下和性能瓶颈。本文介绍了KAITIAN，这是一种新型的分布式通信框架，旨在弥补这一缺口。KAITIAN提供了统一的抽象层，该层能够智能地整合供应商优化的通信库以实现组内效率，同时利用通用通信协议以实现组间互操作性。关键的是，它包括一个负载自适应调度机制，能够根据设备的实际性能特征动态地在异构设备上平衡计算任务。KAITIAN作为PyTorch的扩展实现，并在包含NVIDIA GPU和Cambricon MLUs的测试平台上进行了严格的评估，结果表明，KAITIAN在分布式训练任务中的资源利用率和可扩展性方面取得了显著改进。实验结果表明，与基线的同构系统相比，KAITIAN可以将训练时间加速多达42%，同时引入的通信开销仅为2.8%-4.3%，并保持模型准确性。KAITIAN为复杂嵌入式AI应用中的更灵活和强大的异构计算铺平了道路。