LLM2D
基于GAN的笔迹音乐合成:CycleWGAN、ProGAN和DCGAN的综合评估
Synthesising Handwritten Music with GANs: A Comprehensive Evaluation of CycleWGAN, ProGAN, and DCGAN
作者: Elona Shatri, Kalikidhar Palavala, George Fazekas
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2411.16405v1

摘要

手写乐谱的生成对于增强光学乐谱识别 (OMR) 系统至关重要,而 OMR 系统的最佳性能依赖于大型且多样化的数据集。然而,通常保存在档案中的手写乐谱由于其易损性、书写风格多样以及图像质量问题,给数字化带来了挑战。本文通过应用生成对抗网络 (GAN) 来合成逼真的手写乐谱,从而解决了数据稀缺的问题。我们对三种 GAN 模型——DCGAN、ProGAN 和 CycleWGAN——进行了全面的评估,比较了它们生成多样化和高质量手写乐谱图像的能力。提出的 CycleWGAN 模型增强了风格迁移和训练稳定性,在定性和定量评估中均显著优于 DCGAN 和 ProGAN。CycleWGAN 取得了优异的性能,FID 分数为 41.87,IS 为 2.29,KID 为 0.05,使其成为改进 OMR 系统的有前景的解决方案。