LLM2D

摘要

arXiv:2505.02707v1 宣布类型: 新摘要: 一种能够无缝融入日常生活的人工智能语音代理将以自主、实时和情感表达的方式与人类互动。它不仅仅是对命令做出反应，还会持续地倾听、推理和主动回应，从而促进流畅、动态且富有情感共鸣的互动。我们引入了 Voila，一个大型语音-语言基础模型的家族，朝着这一愿景迈出了一步。Voila 超越了传统的流水线系统，采用了一种新的端到端架构，能够在保持丰富的嗓音细微差别（如音调、节奏和情感）的同时实现全双工、低延迟的对话。它实现了仅195毫秒的响应延迟，超过了平均人类反应时间。它的分层多尺度变换器将大型语言模型（LLMs）的推理能力与强大的声学建模结合起来，使自然、具有个性意识的语音生成成为可能——用户只需编写文本指令就能定义说话人的身份、音调和其他特征。此外，Voila 支持超过一百万种预制语音，并可以从短短10秒的音频样本中高效地定制新的语音。除了口语对话，Voila 被设计为一种统一模型，适用于各种语音应用，包括自动语音识别（ASR）、文本转语音（TTS），并通过少量适应实现多语言语音翻译。Voila 完全开源，以支持开放研究并加速下一代人机互动的发展。