LLM2D
扩散责任:分析生成性文本到语音扩散模型的能耗
Diffused Responsibility: Analyzing the Energy Consumption of Generative Text-to-Audio Diffusion Models
作者: Riccardo Passoni, Francesca Ronchini, Luca Comanducci, Romain Serizel, Fabio Antonacci
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2505.07615v1

摘要

arXiv:2505.07615v1 类型:交叉 摘要:文本转音频模型最近作为一种从文本描述生成声音的强大技术而出现。然而,它们的高计算需求引发了对能源消耗和环境影响的担忧。在本文中,我们对7个最先进的基于扩散的生成性文本转音频模型的能源使用进行了分析,评估生成参数的变化在推断时如何影响能源消耗。我们还旨在通过考虑所有选择模型的帕累托最优解来识别音频质量和能源消耗之间的最佳平衡。我们的发现为性能与环境影响之间的权衡提供了见解,有助于推动更高效的生成音频模型的发展。