LLM2D
LASSI:一个基于LLM的自动化自我纠正翻译管道,用于转换并行科学代码
LASSI: An LLM-based Automated Self-Correcting Pipeline for Translating Parallel Scientific Codes
作者: Matthew T. Dearing, Yiheng Tao, Xingfu Wu, Zhiling Lan, Valerie Taylor
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2407.01638v2

摘要

arXiv:2407.01638v2 公告类型: 替换-跨领域 摘要:本文解决了为专注于科学和工程的大型语言模型(LLM)提供新型训练数据来源的问题。特别是,一个关键挑战是如何获取成百万至上亿的并行科学代码。为了解决这一问题,我们提出了一种名为LASSI的自动化 pipeline 框架,旨在通过利用现有的闭源或开源 LLM 来在多种并行编程语言之间进行翻译。LASSI 包含自主增强功能,通过引导式提示回路进行调试和重构,将生成代码在编译和执行过程中遇到的错误反馈给 LLM。我们通过在 OpenMP 目标卸载和 CUDA 之间双向翻译现有的 GPU 基准测试来验证 LASSI。评估 LASSI 的结果表明,与不同应用代码相关的四个 LLM 在 OpenMP 到 CUDA 的翻译中有 80% 产生了预期输出,在 CUDA 到 OpenMP 的翻译中有 85% 产生了预期输出。此外,我们观察到 OpenMP 到 CUDA 的翻译中有约 78%,CUDA 到 OpenMP 的翻译中有 62%,在与原始基准测试代码相同语言的情况下执行速度比原始代码快 10% 以内。