LLM2D

摘要

arXiv:2405.13828v2 更新类型: 替换-交叉摘要：人类是高效的语言学习者，也是社会性生物。我们的语言发展很大程度上受到社会互动的影响，例如照顾者的行为演示和反馈。与人类语言学习相反，近期的大规模语言模型主要采用非互动的训练 paradigm，并通过反馈进行预训练模型的细化。在本工作中，我们探讨了互动中的纠正性反馈如何影响从头开始的神经语言获取，并通过系统控制的实验来评估这种反馈是否有助于语言模型词汇学习的效率。我们引入了一种试错-演示（TnD）学习框架，该框架包含三个不同的组件：学生试错、教师演示以及基于不同发育阶段的语言能力的奖励。我们的实验揭示了TnD方法可以加速参数数量相同甚至较小的学生模型的词汇获取，我们强调了试错和演示的重要性。我们进一步表明，教师的选择性词汇影响了学生的特定词汇学习效率，并且试错中的词汇频率与它们的学习曲线之间存在强烈的相关性，显示出一种熟能生巧的效果。我们的研究结果表明，带有教师演示和活跃试错的互动语言学习可以促进语言模型中的高效词汇学习。