LLM2D

摘要

arXiv:2407.01638v2 公告类型: 替换-跨领域摘要：本文解决了为专注于科学和工程的大型语言模型（LLM）提供新型训练数据来源的问题。特别是，一个关键挑战是如何获取成百万至上亿的并行科学代码。为了解决这一问题，我们提出了一种名为LASSI的自动化 pipeline 框架，旨在通过利用现有的闭源或开源 LLM 来在多种并行编程语言之间进行翻译。LASSI 包含自主增强功能，通过引导式提示回路进行调试和重构，将生成代码在编译和执行过程中遇到的错误反馈给 LLM。我们通过在 OpenMP 目标卸载和 CUDA 之间双向翻译现有的 GPU 基准测试来验证 LASSI。评估 LASSI 的结果表明，与不同应用代码相关的四个 LLM 在 OpenMP 到 CUDA 的翻译中有 80% 产生了预期输出，在 CUDA 到 OpenMP 的翻译中有 85% 产生了预期输出。此外，我们观察到 OpenMP 到 CUDA 的翻译中有约 78%，CUDA 到 OpenMP 的翻译中有 62%，在与原始基准测试代码相同语言的情况下执行速度比原始代码快 10% 以内。