LLM2D
小语言模型性能:训练数据质量与数量哪个影响更大?
Is Training Data Quality or Quantity More Impactful to Small Language Model Performance?
作者: Aryan Sajith, Krishna Chaitanya Rao Kathala
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2411.15821v1

摘要

本研究调查了训练数据质量与数量对小型语言模型 (SLM) 性能的相对影响,并利用 TinyStories 数据集进行了实证分析。分析了数据集大小(原始大小的 25% 和 50%)和重复率(25%、50%、75% 和 100% 的受控重复率)的变化。模型性能基于验证损失、准确率和困惑度指标进行评估。结果表明,训练数据质量对 SLM 的整体性能起着更重要的作用,尤其是在本实验的规模下。少量重复数据对模型准确率有积极影响(重复率为 25% 时准确率提高了 0.87%),而困惑度没有显著增加(从 0% 到 25% 的重复率,困惑度增加了 0.52%),但过度重复会导致性能显著下降(重复率为 100% 时准确率下降了 40%)。这项研究的意义超越了模型性能本身;大型模型的训练会带来巨大的经济和计算负担,这对于组织、个人和广大公众来说都是难以承受的,尤其是在发展中国家。此外,大规模训练相关的能源消耗也引发了环境问题。理解数据质量与数量的相对重要性可以使人工智能技术民主化,使先进模型更易于获取,并对所有人更具可持续性。