LLM2D

区域小型故事：使用小型模型比较语言学习和分词器性能

Regional Tiny Stories: Using Small Models to Compare Language Learning and Tokenizer Performance

作者: Nirvan Patil, Malhar Abhay Inamdar, Agnivo Gosai, Guruprasad Pathak, Anish Joshi, Aryan Sagavekar, Anish Joshirao, Raj Dandekar, Rajat Dandekar, Sreedath Panat

发布日期: 4/23/2025

arXiv ID: oai:arXiv.org:2504.07989v2

摘要

arXiv:2504.07989v2 通知类型: 交叉替换摘要: 小型语言模型（SLMs）为特定领域提供了LLMs的高效替代方案。2023年的TinyStories研究开发了一个英语言料库，使具有1到1000万个参数的SLMs能够生成连贯的输出。我们的研究扩展了这一框架，通过将原始数据集翻译成印度语，并使用LLMs生成合成数据。我们专注于印地语、马拉地语和孟加拉语，评估SLMs在地区语言处理中的性能，并理解语言复杂性。我们展示了SLMs能够用远少于LLMs的参数高效处理地区语言，提供了基于推理评估分词策略和语言复杂性的补充框架。我们的分析表明，地区语言特定的分词器在印度语言方面优于通用分词器。基于信息论和形态学分析的经验验证提供了Hindi模型在Marathi和Bengali上的更好性能背后的基本理解。此外，我们展示了合成数据集在训练SLMs方面的表现优于翻译内容。相关分析揭示了跨语言模式以及创造性、语法精确性和叙事完整性之间的语言特定关系。这些发现既推进了SLMs在未充分服务语言中的实际应用，也加深了我们对神经语言发展的理论理解。

查看原文下载 PDF