摘要
arXiv:2502.06844v1 平行类型:交叉
摘要:由于大型语言模型在广泛的应用中取得了成功,其规模一直在增加。这迫切需要减少内存使用,使其更具可访问性。后训练量化是一种流行的技术,它使用较少的位数(例如4-8位)表示模型而无需重新训练。然而,在超低位数设置下(例如2位)执行量化仍然是一个具有挑战性的任务。在本文中,我们提出了一种统一框架——InvarExplore,它可以系统地探索不同模型不变性,使我们能够利用每种不变性之间的协同作用。重要的是,InvarExplore具有一个离散搜索算法,使我们能够探索置换不变性,这种不变性由于不能用梯度为基础的方法优化,而未得到充分研究。结果表明,InvarExplore与现有的最新方法兼容,在强大的竞争对手方法上实现了额外的性能提升。