LLM2D

摘要

本文探讨了在监督分类任务中应用一类方法和一类一网络模型的结构化方法，重点关注自动语音识别 (ASR) 领域的元音音素分类和说话人识别。针对我们的案例研究，ASR 模型运行在一个专有的传感和照明系统上，用于监控城市街道上的声学和空气污染。我们使用一种知情的网格搜索方法，将伪神经架构搜索和超参数调整实验相结合，以实现与当今最复杂架构相当的分类精度，深入研究了说话人识别和能源效率方面。尽管模型简单，但我们的模型提议在计算受限的环境中具有很强的泛化语言和说话人性别背景的能力，这在相关统计数据和性能指标中得到了证明。我们的实验代码在 GitHub 上公开提供。