LLM2D
利用Babylon改造自然语言理解:面向自动化免下车点餐系统的实时、边缘高效、多意图翻译系统的开发案例研究
Transforming NLU with Babylon: A Case Study in Development of Real-time, Edge-Efficient, Multi-Intent Translation System for Automated Drive-Thru Ordering
作者: Mostafa Varzaneh, Pooja Voladoddi, Tanmay Bakshi, Uma Gunturi
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2411.15372v1

摘要

实时对话式AI代理在动态的户外环境(如自动车道点餐系统)中执行自然语言理解 (NLU) 时面临挑战。这些环境要求NLU模型在边缘设备上严格的延迟和内存限制下处理背景噪声、不同口音和多意图查询。此外,对来自上游自动语音识别 (ASR) 错误的鲁棒性至关重要,因为这些环境中的ASR输出通常很嘈杂。我们引入了Babylon,这是一种基于Transformer的架构,它将NLU视为意图翻译任务,将自然语言输入转换为常规语言单元序列(“转码”),这些单元同时编码意图和槽位信息。这种公式允许Babylon在一个对话轮次中管理多意图场景。此外,Babylon结合了基于LSTM的令牌池化机制来预处理音素序列,减少输入长度并优化低延迟、低内存的边缘部署。这也有助于减轻ASR输出中的不准确性,增强系统鲁棒性。虽然这项工作侧重于车道点餐,但Babylon的设计可以扩展到类似的易受噪声影响的场景,例如售票亭。我们的实验表明,与通常使用的NMT模型(如Flan-T5和BART)相比,Babylon在准确性-延迟-内存占用方面取得了显著更好的权衡,证明了其在边缘部署环境中进行实时NLU的有效性。