LLM2D

摘要

arXiv:2503.22736v1 宣言类型: cross 摘要：传统上用于大规模评估的自动评分（AS）系统使用的是小型统计模型，这些模型需要大量的手工评分数据来做出准确的预测，这可能会花费大量时间和成本。生成性大型语言模型在许多任务上进行了训练，并显示出出色的泛化能力，只需少量甚至无需额外数据即可应对新任务。虽然这些模型在做预测时需要大量计算能力，但仍需要一定程度的微调才能满足运营标准。有证据表明，即使在使用少量数据进行微调的情况下，这些模型也能超越人类之间的协议水平。基于此，我们提出了一种模型蒸馏管道，在这种管道中，一个大型生成模型（教师）教授一个小得多的模型（学生）。教师在一小部分训练数据上进行训练，然后用于对剩余的训练数据进行评分，这些评分数据随后用于训练学生模型。我们将由此产生的数据集称为“半机械人数据”，因为它结合了人类和机器评分的响应。我们的研究结果表明，使用“半机械人数据”训练的学生模型在性能上与使用整个数据集训练时相当，但仅需要原始手工评分数据的10%。