LLM2D

摘要

近年来，研究表明少样本学习能够让大型语言模型（LLM）以低成本生成用于监督模型的训练数据。然而，LLM 生成的数据的质量可能无法完全与人工标注的数据相媲美。这引发了一个关键问题：如何平衡高质量但成本更高的人工数据与质量较低但成本低得多的 LLM 生成的数据之间的权衡？本文利用 GPT-4 合成用于对话语义框架分析的训练数据，并研究了如何最佳地分配预算以获得最佳性能。我们针对各种预算水平进行了实验，结果表明，在广泛的预算水平下，通过结合人工数据和 LLM 生成的数据，能够实现最佳的成本效益。值得注意的是，随着预算的减少，使用更高比例的 LLM 生成的数据变得更加可取。