摘要
arXiv:2505.10101v1 类型: cross
摘要:本文介绍了LAV(Latent Audio-Visual)系统,该系统将EnCodec的神经音频压缩与StyleGAN2的生成能力相结合,以预先录制的音频为驱动,产生视觉动态输出。与以往依赖显式特征映射的工作不同,LAV使用EnCodec嵌入作为潜在表示,并通过随机初始化的线性映射直接转换为StyleGAN2的风格潜在空间。这种方法保留了转换中的语义丰富性,使得音频-视觉翻译更加细腻且语义上一致。该框架展示了使用预训练音频压缩模型进行艺术和计算应用的潜力。