LLM2D

摘要

最近的研究强调了大型语言模型在为儿童创建教育工具方面的潜力，但仍然存在重大挑战，即如何维护关键的儿童特定属性，例如语言细微差别、认知需求和安全标准。本文探讨了开发儿童特定语言模型的基础步骤，强调了高质量预训练数据的重要性。我们引入了一种新颖的用户为中心的数据收集管道，该管道涉及收集和验证专门为儿童撰写，有时甚至由儿童撰写的语料库。此外，我们提出了一种新的训练目标，分层掩蔽，该目标根据我们特定领域的儿童语言数据动态调整掩蔽概率，使模型能够优先考虑更适合儿童的词汇和概念。实验评估表明，我们的模型在理解低年级文本方面表现出色，通过避免刻板印象来保持安全性，并捕捉到儿童独特的偏好。此外，我们为儿童特定语言建模的未来研究和开发提供了可操作的见解。