LLM2D

摘要

虽然高性能语言模型通常在数千亿单词上进行训练，但人类儿童只需少量数据就能成为流利的语言使用者。他们接收到的数据有哪些特征，这些特征如何支持语言建模目标？为了研究这个问题，我们在2900万字的英语儿童导向语音和一个新的匹配合成数据集（TinyDialogues）上训练了GPT-2和RoBERTa模型，并将其与OpenSubtitles、维基百科和来自BabyLM挑战赛的异构数据集混合体进行了比较。我们使用发展性启发的评估方法来评估这些模型的句法和语义知识。通过预训练实验，我们测试了儿童训练数据的全局发展顺序或局部语篇顺序相对于其他数据集是否支持高性能。数据的局部属性会影响模型结果，但令人惊讶的是，全局属性不会。此外，儿童语言输入对于训练语言模型并非具有独特的价值。这些发现支持这样的假设：与其说是更好的数据，不如说是儿童的学习算法比目前的语言建模技术具有更高的数据效率。