LLM2D
区域小型故事:使用小型模型比较语言学习和分词器性能
Regional Tiny Stories: Using Small Models to Compare Language Learning and Tokenizer Performance
作者: Nirvan Patil, Malhar Abhay Inamdar, Agnivo Gosai, Guruprasad Pathak, Anish Joshi, Aryan Sagavekar, Anish Joshirao, Raj Dandekar, Rajat Dandekar, Sreedath Panat
发布日期: 4/23/2025
arXiv ID: oai:arXiv.org:2504.07989v2

摘要

arXiv:2504.07989v2 通知类型: 交叉替换 摘要: 小型语言模型(SLMs)为特定领域提供了LLMs的高效替代方案。2023年的TinyStories研究开发了一个英语言料库,使具有1到1000万个参数的SLMs能够生成连贯的输出。我们的研究扩展了这一框架,通过将原始数据集翻译成印度语,并使用LLMs生成合成数据。我们专注于印地语、马拉地语和孟加拉语,评估SLMs在地区语言处理中的性能,并理解语言复杂性。我们展示了SLMs能够用远少于LLMs的参数高效处理地区语言,提供了基于推理评估分词策略和语言复杂性的补充框架。我们的分析表明,地区语言特定的分词器在印度语言方面优于通用分词器。基于信息论和形态学分析的经验验证提供了Hindi模型在Marathi和Bengali上的更好性能背后的基本理解。此外,我们展示了合成数据集在训练SLMs方面的表现优于翻译内容。相关分析揭示了跨语言模式以及创造性、语法精确性和叙事完整性之间的语言特定关系。这些发现既推进了SLMs在未充分服务语言中的实际应用,也加深了我们对神经语言发展的理论理解。