LLM2D

摘要

尽管大型语言模型（LLM）取得了显著进展，但在复杂的约束条件下，它们仍然缺乏精细的可控性，而这对于提升其响应质量和用户体验至关重要。虽然条件监督微调 (SFT) 能够潜在地改善 LLM 的可控性，但为了满足约束条件而策划新的 SFT 数据通常依赖于人工专家或专有 LLM，这既费时又费钱。为了弥合这一差距，我们提出了一种基于规则的数据循环利用方法 (RuleR)，这是一种无需人工/LLM 的数据增强方法，它将多个约束条件整合到原始 SFT 数据中。RuleR 并非从头创建新的响应，而是将语言或格式规则整合到原始指令中，并修改响应以满足规则定义的约束条件。在“循环利用”的数据上进行训练，巩固了 LLM 生成受约束输出的能力。大量的实验表明，RuleR 在提高 LLM 可控性的同时，保持了一般的指令遵循性能。RuleR 的代码已发布在 https://github.com/tianyi-lab/RuleR。