LLM2D

摘要

自动简答评分 (ASAS) 有助于减轻教育工作者的评分负担，但通常缺乏详细的可解释反馈。现有的 ASAS 带反馈 (ASAS-F) 方法依赖于对语言模型进行微调，而这些模型的数据集有限，资源密集且难以跨上下文泛化。最近使用大型语言模型 (LLMs) 的方法侧重于评分，而无需进行大量微调。然而，它们通常严重依赖于提示工程，要么无法生成详细的反馈，要么无法对其进行充分评估。在本文中，我们提出了一种基于模块化检索增强生成 (retrieval augmented generation) 的 ASAS-F 系统，该系统在严格的零样本和少样本学习场景中对答案进行评分并生成反馈。我们设计了我们的系统，使其无需大量提示工程即可适应各种教育任务，使用自动提示生成框架。结果表明，与微调相比，在看不见的问题上评分准确率提高了 9%，提供了一种可扩展且经济高效的解决方案。