LLM2D

摘要

指令增强是释放大型语言模型 (LLM) 在下游任务中全部潜力的关键步骤。现有的自指令方法主要通过上下文学习从少量初始指令中模拟新指令。然而，我们的研究发现该方法存在一个关键缺陷：即使使用 GPT4o，自指令也无法生成长度 $\ge 100$ 的复杂指令，而这在代码补全等复杂任务中是必需的。为了解决这个问题，我们的关键见解是，仅使用十个示例微调开源 LLM 就可以生成复杂指令，这些指令在复杂推理任务中保持分布一致性。我们引入了 Ada-Instruct，这是一种通过微调开发的自适应指令生成器。我们在不同应用中实证验证了 Ada-Instruct 的有效性。结果突出了 Ada-Instruct 生成长、复杂且分布一致指令的能力。