LLM2D

摘要

arXiv:2505.10101v1 类型: cross 摘要：本文介绍了LAV（Latent Audio-Visual）系统，该系统将EnCodec的神经音频压缩与StyleGAN2的生成能力相结合，以预先录制的音频为驱动，产生视觉动态输出。与以往依赖显式特征映射的工作不同，LAV使用EnCodec嵌入作为潜在表示，并通过随机初始化的线性映射直接转换为StyleGAN2的风格潜在空间。这种方法保留了转换中的语义丰富性，使得音频-视觉翻译更加细腻且语义上一致。该框架展示了使用预训练音频压缩模型进行艺术和计算应用的潜力。