LLM2D

摘要

arXiv:2502.06844v1 平行类型：交叉摘要：由于大型语言模型在广泛的应用中取得了成功，其规模一直在增加。这迫切需要减少内存使用，使其更具可访问性。后训练量化是一种流行的技术，它使用较少的位数（例如4-8位）表示模型而无需重新训练。然而，在超低位数设置下（例如2位）执行量化仍然是一个具有挑战性的任务。在本文中，我们提出了一种统一框架——InvarExplore，它可以系统地探索不同模型不变性，使我们能够利用每种不变性之间的协同作用。重要的是，InvarExplore具有一个离散搜索算法，使我们能够探索置换不变性，这种不变性由于不能用梯度为基础的方法优化，而未得到充分研究。结果表明，InvarExplore与现有的最新方法兼容，在强大的竞争对手方法上实现了额外的性能提升。