LLM2D

摘要

本研究调查了训练数据质量与数量对小型语言模型 (SLM) 性能的相对影响，并利用 TinyStories 数据集进行了实证分析。分析了数据集大小（原始大小的 25% 和 50%）和重复率（25%、50%、75% 和 100% 的受控重复率）的变化。模型性能基于验证损失、准确率和困惑度指标进行评估。结果表明，训练数据质量对 SLM 的整体性能起着更重要的作用，尤其是在本实验的规模下。少量重复数据对模型准确率有积极影响（重复率为 25% 时准确率提高了 0.87%），而困惑度没有显著增加（从 0% 到 25% 的重复率，困惑度增加了 0.52%），但过度重复会导致性能显著下降（重复率为 100% 时准确率下降了 40%）。这项研究的意义超越了模型性能本身；大型模型的训练会带来巨大的经济和计算负担，这对于组织、个人和广大公众来说都是难以承受的，尤其是在发展中国家。此外，大规模训练相关的能源消耗也引发了环境问题。理解数据质量与数量的相对重要性可以使人工智能技术民主化，使先进模型更易于获取，并对所有人更具可持续性。