LLM2D

基于多模态释义监督的自动语音识别系统

AMPS: ASR with Multimodal Paraphrase Supervision

作者: Amruta Parulekar, Abhishek Gupta, Sameep Chattopadhyay, Preethi Jyothi

发布日期: 11/28/2024

arXiv ID: oai:arXiv.org:2411.18368v1

用于多语言口语自动语音识别的基于释义的增强方法。该方法通过基于释义的监督增强多模态自动语音识别系统，提高了包括印地语、马拉地语、马拉雅拉姆语、卡纳达语和尼亚雅语在内的多种语言的会话式语音识别效果。