摘要
arXiv:2503.22736v1 宣言类型: cross
摘要:传统上用于大规模评估的自动评分(AS)系统使用的是小型统计模型,这些模型需要大量的手工评分数据来做出准确的预测,这可能会花费大量时间和成本。生成性大型语言模型在许多任务上进行了训练,并显示出出色的泛化能力,只需少量甚至无需额外数据即可应对新任务。虽然这些模型在做预测时需要大量计算能力,但仍需要一定程度的微调才能满足运营标准。有证据表明,即使在使用少量数据进行微调的情况下,这些模型也能超越人类之间的协议水平。基于此,我们提出了一种模型蒸馏管道,在这种管道中,一个大型生成模型(教师)教授一个小得多的模型(学生)。教师在一小部分训练数据上进行训练,然后用于对剩余的训练数据进行评分,这些评分数据随后用于训练学生模型。我们将由此产生的数据集称为“半机械人数据”,因为它结合了人类和机器评分的响应。我们的研究结果表明,使用“半机械人数据”训练的学生模型在性能上与使用整个数据集训练时相当,但仅需要原始手工评分数据的10%。