摘要
大型科学模拟会生成海量数据集,给存储和 I/O 带来了巨大挑战。虽然传统的有损压缩技术可以提高性能,但在平衡压缩率、数据质量和吞吐量方面仍然面临困难。为了解决这个问题,我们提出了 NeurLZ,一种新颖的基于跨域学习和误差控制的科学数据压缩框架。通过整合跳跃 DNN 模型、跨域学习和误差控制,我们的框架旨在显著提高有损压缩性能。我们的贡献有三方面:(1) 我们设计了一个轻量级的跳跃模型,以提供高保真细节保留,进一步提高预测精度。(2) 我们采用了一种跨域学习方法,显著提高数据预测精度,从而大幅提高压缩率。(3) 我们开发了一种误差控制方法,根据用户需求提供严格的误差边界。我们对 NeurLZ 在多个真实 HPC 应用数据集上进行了评估,包括 Nyx(宇宙学模拟)、Miranda(大型湍流模拟)和 Hurricane(天气模拟)。实验表明,与现有最佳方法相比,我们的框架在相同数据失真下实现了高达 90% 的比特率相对减少。