摘要
尽管大型语言模型(LLM)取得了显著进展,但在复杂的约束条件下,它们仍然缺乏精细的可控性,而这对于提升其响应质量和用户体验至关重要。虽然条件监督微调 (SFT) 能够潜在地改善 LLM 的可控性,但为了满足约束条件而策划新的 SFT 数据通常依赖于人工专家或专有 LLM,这既费时又费钱。为了弥合这一差距,我们提出了一种基于规则的数据循环利用方法 (RuleR),这是一种无需人工/LLM 的数据增强方法,它将多个约束条件整合到原始 SFT 数据中。RuleR 并非从头创建新的响应,而是将语言或格式规则整合到原始指令中,并修改响应以满足规则定义的约束条件。在“循环利用”的数据上进行训练,巩固了 LLM 生成受约束输出的能力。大量的实验表明,RuleR 在提高 LLM 可控性的同时,保持了一般的指令遵循性能。RuleR 的代码已发布在 https://github.com/tianyi-lab/RuleR。