LLM2D
LAV:由音频驱动的动态视觉生成——基于神经压缩和StyleGAN2
LAV: Audio-Driven Dynamic Visual Generation with Neural Compression and StyleGAN2
作者: Jongmin Jung, Dasaem Jeong
发布日期: 5/16/2025
arXiv ID: oai:arXiv.org:2505.10101v1

摘要

arXiv:2505.10101v1 类型: cross 摘要:本文介绍了LAV(Latent Audio-Visual)系统,该系统将EnCodec的神经音频压缩与StyleGAN2的生成能力相结合,以预先录制的音频为驱动,产生视觉动态输出。与以往依赖显式特征映射的工作不同,LAV使用EnCodec嵌入作为潜在表示,并通过随机初始化的线性映射直接转换为StyleGAN2的风格潜在空间。这种方法保留了转换中的语义丰富性,使得音频-视觉翻译更加细腻且语义上一致。该框架展示了使用预训练音频压缩模型进行艺术和计算应用的潜力。