LLM2D

摘要

arXiv:2411.15821v2 通知类型: 替换-交叉摘要：本研究探讨了训练数据质量与数量对小型语言模型（SLMs）性能的相对影响，使用了TinyStories数据集进行实证分析。研究分析了数据集在大小（原大小的25%和50%）和复制（受控率为25%、50%、75%和100%）方面的变化。模型性能是基于验证损失、准确率和困惑度指标进行评估的。结果显示，训练数据质量在SLMs的整体性能中起着更重要的作用，尤其是在这次实验的规模下。轻微的复制对模型准确率产生了积极影响（在25%复制率下准确率提高了0.87%）且未显著增加困惑度（从0%到25%复制率，困惑度增加了0.52%），而过度复制导致了显著的性能下降（100%复制率下准确率下降了40%）。这次探索的影响不仅限于模型性能；训练大规模模型会对企业和个人造成显著的财务和计算负担，特别是在发展中国家，这可能成为一种障碍。此外，大规模训练相关的能源消耗也引发了环境方面的关注。理解数据质量与数量的相对重要性可以帮助使AI技术更加普及，使先进的模型对所有人更具访问性和可持续性。