LLM2D

摘要

arXiv:2503.24062v1 类型: cross 摘要：收集高质量的训练数据对于微调大规模语言模型（LLMs）至关重要。然而，获取这样的数据往往是昂贵且耗时的，尤其是在非英语语言（如意大利语）方面。最近，研究人员开始探索使用LLMs生成合成数据作为一种可行的替代方案。本研究提出了一种生成合成数据的流水线，并通过评估模型性能受提示策略、文本长度和特定任务中目标位置等因素的影响，全面调查了由LLMs生成的合成数据的有效性因素。我们的结果表明，大多数情况下，使用合成数据训练的微调模型在真实和合成测试数据集上的性能普遍优于其他模型。该研究讨论了使用合成数据进行LLMs的语言检测任务的实际意义和限制。