摘要
近年来,研究表明少样本学习能够让大型语言模型(LLM)以低成本生成用于监督模型的训练数据。然而,LLM 生成的数据的质量可能无法完全与人工标注的数据相媲美。这引发了一个关键问题:如何平衡高质量但成本更高的 人工数据与质量较低但成本低得多的 LLM 生成的 数据之间的权衡?本文利用 GPT-4 合成用于对话语义框架分析的训练数据,并研究了如何最佳地分配预算以获得最佳性能。我们针对各种预算水平进行了实验,结果表明,在广泛的预算水平下,通过结合人工数据和 LLM 生成的 数据,能够实现最佳的成本效益。值得注意的是,随着预算的减少,使用更高比例的 LLM 生成的 数据变得更加可取。