LLM2D

摘要

arXiv:2504.02211v1 声明类型: cross 摘要：Transformer模型利用自注意力机制捕捉复杂的依赖关系，在各种应用中表现出色。然而，模型推理所需的长时间高负载计算对计算平台提出了严格可靠性的要求，因为执行过程中发生的软错误会显著降低模型性能。现有的容错方法通过解耦内核分别保护每个操作，导致巨大的计算和内存开销。在本文中，我们提出了一种用于Transformer模型的新型容错框架，结合端到端容错注意力（EFTA）以提高在软错误影响下的推理可靠性。我们的方法在完全融合的注意力内核中进行错误检测和纠正，减少了冗余数据访问，从而减轻了内存故障的影响。为了进一步增加错误覆盖范围并减少开销，我们设计了一种针对EFTA的混合容错方案，引入了以下创新内容：1）基于架构感知算法的容错（ABFT），使用张量校验和来最小化在检测错误时张量核心之间的线程间通信开销；2）选择性神经元值限制，选择性地对神经元值应用自适应的容错约束，以平衡错误覆盖范围和开销；3）统一验证，重用校验和将多个计算步骤合并为一个验证过程。实验结果显示，EFTA在传统方法上实现了高达7.56倍的加速，平均容错开销为13.9%。