摘要
最近的研究强调了大型语言模型在为儿童创建教育工具方面的潜力,但仍然存在重大挑战,即如何维护关键的儿童特定属性,例如语言细微差别、认知需求和安全标准。本文探讨了开发儿童特定语言模型的基础步骤,强调了高质量预训练数据的重要性。我们引入了一种新颖的用户为中心的数据收集管道,该管道涉及收集和验证专门为儿童撰写,有时甚至由儿童撰写的语料库。此外,我们提出了一种新的训练目标,分层掩蔽,该目标根据我们特定领域的儿童语言数据动态调整掩蔽概率,使模型能够优先考虑更适合儿童的词汇和概念。实验评估表明,我们的模型在理解低年级文本方面表现出色,通过避免刻板印象来保持安全性,并捕捉到儿童独特的偏好。此外,我们为儿童特定语言建模的未来研究和开发提供了可操作的见解。