摘要
本研究调查了训练数据质量与数量对小型语言模型 (SLM) 性能的相对影响,并利用 TinyStories 数据集进行了实证分析。分析了数据集大小(原始大小的 25% 和 50%)和重复率(25%、50%、75% 和 100% 的受控重复率)的变化。模型性能基于验证损失、准确率和困惑度指标进行评估。结果表明,训练数据质量对 SLM 的整体性能起着更重要的作用,尤其是在本实验的规模下。少量重复数据对模型准确率有积极影响(重复率为 25% 时准确率提高了 0.87%),而困惑度没有显著增加(从 0% 到 25% 的重复率,困惑度增加了 0.52%),但过度重复会导致性能显著下降(重复率为 100% 时准确率下降了 40%)。这项研究的意义超越了模型性能本身;大型模型的训练会带来巨大的经济和计算负担,这对于组织、个人和广大公众来说都是难以承受的,尤其是在发展中国家。此外,大规模训练相关的能源消耗也引发了环境问题。理解数据质量与数量的相对重要性可以使人工智能技术民主化,使先进模型更易于获取,并对所有人更具可持续性。