LLM2D

摘要

尽管小型语言模型 (SLM) 在现代智能设备中得到广泛应用，但与主要部署在数据中心和云环境中的大型语言模型 (LLM) 相比，它们在学术界所受到的关注要少得多。虽然研究人员不断提升 LLM 在通往通用人工智能的道路上的能力，但 SLM 研究旨在使机器智能更易于获取、更经济实惠，并为日常生活中的任务提供更高效的解决方案。我们重点关注具有 1 亿至 50 亿参数的基于 Transformer 的解码器专用语言模型，对 59 种最先进的开源 SLM 进行了调查，并从架构、训练数据集和训练算法三个方面分析了它们的的技术创新。此外，我们还评估了它们在常识推理、上下文学习、数学和编码等各个领域的性能。为了更深入地了解其在设备上的运行时成本，我们对它们的推理延迟和内存占用进行了基准测试。通过对我们的基准测试数据进行深入分析，我们为推动该领域的研究提供了宝贵的见解。