LLM2D
Voila:语音-语言基础模型在实时自主交互和语音角色扮演中的应用
Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play
作者: Yemin Shi, Yu Shu, Siwei Dong, Guangyi Liu, Jaward Sesay, Jingwen Li, Zhiting Hu
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2505.02707v1

摘要

arXiv:2505.02707v1 宣布类型: 新 摘要: 一种能够无缝融入日常生活的人工智能语音代理将以自主、实时和情感表达的方式与人类互动。它不仅仅是对命令做出反应,还会持续地倾听、推理和主动回应,从而促进流畅、动态且富有情感共鸣的互动。我们引入了 Voila,一个大型语音-语言基础模型的家族,朝着这一愿景迈出了一步。Voila 超越了传统的流水线系统,采用了一种新的端到端架构,能够在保持丰富的嗓音细微差别(如音调、节奏和情感)的同时实现全双工、低延迟的对话。它实现了仅195毫秒的响应延迟,超过了平均人类反应时间。它的分层多尺度变换器将大型语言模型(LLMs)的推理能力与强大的声学建模结合起来,使自然、具有个性意识的语音生成成为可能——用户只需编写文本指令就能定义说话人的身份、音调和其他特征。此外,Voila 支持超过一百万种预制语音,并可以从短短10秒的音频样本中高效地定制新的语音。除了口语对话,Voila 被设计为一种统一模型,适用于各种语音应用,包括自动语音识别(ASR)、文本转语音(TTS),并通过少量适应实现多语言语音翻译。Voila 完全开源,以支持开放研究并加速下一代人机互动的发展。