LLM2D

摘要

大型科学模拟会生成海量数据集，给存储和 I/O 带来了巨大挑战。虽然传统的有损压缩技术可以提高性能，但在平衡压缩率、数据质量和吞吐量方面仍然面临困难。为了解决这个问题，我们提出了 NeurLZ，一种新颖的基于跨域学习和误差控制的科学数据压缩框架。通过整合跳跃 DNN 模型、跨域学习和误差控制，我们的框架旨在显著提高有损压缩性能。我们的贡献有三方面：(1) 我们设计了一个轻量级的跳跃模型，以提供高保真细节保留，进一步提高预测精度。(2) 我们采用了一种跨域学习方法，显著提高数据预测精度，从而大幅提高压缩率。(3) 我们开发了一种误差控制方法，根据用户需求提供严格的误差边界。我们对 NeurLZ 在多个真实 HPC 应用数据集上进行了评估，包括 Nyx（宇宙学模拟）、Miranda（大型湍流模拟）和 Hurricane（天气模拟）。实验表明，与现有最佳方法相比，我们的框架在相同数据失真下实现了高达 90% 的比特率相对减少。