摘要
arXiv:2409.05785v4 通知类型: replace-cross
摘要:大规模科学模拟生成大量的数据集,这给存储和输入/输出带来了挑战。传统的有损压缩在压缩比、数据质量和适应不同科学数据特征方面难以取得平衡进步。虽然基于深度学习的解决方案已被探索,但它们通常依赖大型模型和离线训练的做法限制了对动态数据特性和计算效率的适应性。为了应对这些挑战,我们提出了NeurLZ,一种通过结合在线学习、跨域学习和稳健的误差调节来增强有损压缩的神经方法。NeurLZ的关键创新包括:(1) 压缩时间的在线神经学习,利用轻量级跳过的DNN模型,不需要昂贵的离线关联,适应残留误差;(2) 误差缓解能力,恢复由传统压缩器忽略的压缩误差中的细微差别;(3) $1\times$和$2\times$误差调节模式,确保严格遵守$1\times$用户输入的误差界限或较为宽松的$2\times$界限,以提高整体质量;(4) 跨域学习,利用科学数据中的域间关联来改进传统方法。针对代表性的HPC数据集(如Nyx、Miranda、飓风)和最先进的压缩器进行全面评估显示了NeurLZ的有效性。在前五个学习周期内,NeurLZ实现了89%的比特率降低,并通过进一步优化在等效失真下达到约94%的降低,明显优于现有方法,充分展示了NeurLZ在增强科学有损压缩方面的优越性能,作为一种可扩展和高效的解决方案。