LLM2D

摘要

arXiv:2406.15938v4 宣告类型: replace-cross 摘要: 大规模语言模型（LLMs）在对其响应的细致可控性方面仍然存在不足，这是提高它们性能和用户体验的关键。然而，通过监督微调（SFT）数据集来改进LLM的可控性通常依赖于人类专家或专有LLM，这需要额外的成本。为了弥合这一差距，我们提出了基于规则的数据回收（RuleR）方法，该方法通过预定义规则将多个约束整合到原始数据样本中，从而创建新的训练任务以巩固LLM的可控性。RuleR 并非从头创建新数据，而是通过简单地对现有数据的响应应用基于规则的编辑并在其原始指令中附加规则说明来“回收”现有数据。实验结果证明，RuleR 在提高LLM可控性的同时，能够保持一般指令遵循能力的有效性。