LLM2D

区域性Tiny故事：使用小型模型比较语言学习和分词器性能

Regional Tiny Stories: Using Small Models to Compare Language Learning and Tokenizer Performance

作者: Nirvan Patil, Malhar Abhay Inamdar, Agnivo Gosai, Guruprasad Pathak, Anish Joshi, Aryan Sagavekar, Anish Joshirao, Raj Dandekar, Rajat Dandekar, Sreedath Panat

发布日期: 4/14/2025

arXiv ID: oai:arXiv.org:2504.07989v1

摘要

arXiv:2504.07989v1 宣布类型: cross 摘要: 小型语言模型（SLMs）为特定领域提供了LLMs的高效替代方案。2023年TinyStories研究开发了一个英语数据集，允许具有1至10百万元参数的SLMs生成连贯的输出。我们的研究扩展了这一框架，通过使用LLMs将原始数据集翻译成印度语，并生成合成数据。我们重点关注印地语、马拉地语和孟加拉语，评估SLMs在处理区域语言方面的表现，并理解语言复杂性。我们展示了一个参数远少于LLMs的SLMs可以高效处理区域语言，提供了一种补充框架，用于基于推理评估分词策略和语言复杂性。我们的分析表明，特定语言的分词器在印度语言方面优于通用分词器。通过对信息论和形态学分析的支持的实证验证提供了动力，揭示了印地语模型在马拉地语和孟加拉语方面的更好性能背后的原理。此外，我们展示了合成数据集在训练SLMs方面优于翻译内容。相关性分析揭示了跨语言模式以及创造力、语法精确性和叙事完整性之间语言特异性的关系。这些发现不仅推进了SLMs在未服务语言中的实际应用，还深化了我们对神经语言发展的理论理解。

查看原文下载 PDF