LLM2D
LightNobel:通过自适应激活量化改善蛋白质结构预测模型的序列长度限制
LightNobel: Improving Sequence Length Limitation in Protein Structure Prediction Model via Adaptive Activation Quantization
作者: Seunghee Han, Soongyu Choi, Joo-Young Kim
发布日期: 5/12/2025
arXiv ID: oai:arXiv.org:2505.05893v1

摘要

arXiv:2505.05893v1 Announce Type: cross 摘要:最近在蛋白质结构预测模型(PPMs)方面取得的进展,如AlphaFold2和ESMFold,通过在预测三维蛋白质折叠结构方面取得前所未有的准确性,彻底改变了计算生物学。然而,这些模型在处理长氨基酸序列的蛋白质(例如,序列长度 > 1,000)时面临显著的扩展性挑战。这一扩展性瓶颈主要是由于PPM中的激活量随指数增长而增加,这导致了额外维度的引入,从而导致了重大的内存和计算需求。这些限制阻碍了PPM的有效扩展以应用于实际场景,例如分析大型蛋白质或具有重要生物和药理相关性的复杂多聚体。 本文中,我们提出了LightNobel,这是第一个为克服PPM序列长度扩展性限制而设计的硬件-软件协同加速器。在软件层面,我们提出了基于令牌的自适应激活量化(AAQ)技术,这种技术利用了PPM激活中的独特令牌特征(如distogram模式),以实现精细化的量化技术而不牺牲准确性。在硬件层面,LightNobel集成了多精度可重构矩阵处理单元(RMPU)和多功能向量处理单元(VVPU),以实现AAQ的高效执行。通过这些创新,LightNobel在保持微乎其微的准确性损失的情况下,相对于最新的NVIDIA A100和H100 GPU分别实现了8.44倍,8.41倍的加速和37.29倍,43.35倍的更高能效。它还减少了PPM的最大内存需求高达120.05倍,使长序列蛋白质的可扩展处理成为可能。