LLM2D
RuleR:基于规则的数据循环提升大型语言模型的可控性
RuleR: Improving LLM Controllability by Rule-based Data Recycling
作者: Ming Li, Han Chen, Chenguang Wang, Dang Nguyen, Dianqi Li, Tianyi Zhou
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2406.15938v2

摘要

尽管大型语言模型(LLM)取得了显著进展,但在复杂的约束条件下,它们仍然缺乏精细的可控性,而这对于提升其响应质量和用户体验至关重要。虽然条件监督微调 (SFT) 能够潜在地改善 LLM 的可控性,但为了满足约束条件而策划新的 SFT 数据通常依赖于人工专家或专有 LLM,这既费时又费钱。为了弥合这一差距,我们提出了一种基于规则的数据循环利用方法 (RuleR),这是一种无需人工/LLM 的数据增强方法,它将多个约束条件整合到原始 SFT 数据中。RuleR 并非从头创建新的响应,而是将语言或格式规则整合到原始指令中,并修改响应以满足规则定义的约束条件。在“循环利用”的数据上进行训练,巩固了 LLM 生成受约束输出的能力。大量的实验表明,RuleR 在提高 LLM 可控性的同时,保持了一般的指令遵循性能。RuleR 的代码已发布在 https://github.com/tianyi-lab/RuleR。