LLM2D
小语言模型性能更受训练数据质量和数量哪个因素的影响?
Is Training Data Quality or Quantity More Impactful to Small Language Model Performance?
作者: Aryan Sajith, Krishna Chaitanya Rao Kathala
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2411.15821v2

摘要

arXiv:2411.15821v2 通知类型: 替换-交叉 摘要:本研究探讨了训练数据质量与数量对小型语言模型(SLMs)性能的相对影响,使用了TinyStories数据集进行实证分析。研究分析了数据集在大小(原大小的25%和50%)和复制(受控率为25%、50%、75%和100%)方面的变化。模型性能是基于验证损失、准确率和困惑度指标进行评估的。结果显示,训练数据质量在SLMs的整体性能中起着更重要的作用,尤其是在这次实验的规模下。轻微的复制对模型准确率产生了积极影响(在25%复制率下准确率提高了0.87%)且未显著增加困惑度(从0%到25%复制率,困惑度增加了0.52%),而过度复制导致了显著的性能下降(100%复制率下准确率下降了40%)。这次探索的影响不仅限于模型性能;训练大规模模型会对企业和个人造成显著的财务和计算负担,特别是在发展中国家,这可能成为一种障碍。此外,大规模训练相关的能源消耗也引发了环境方面的关注。理解数据质量与数量的相对重要性可以帮助使AI技术更加普及,使先进的模型对所有人更具访问性和可持续性。