LLM2D

摘要

为了使大型语言模型（LLM）符合人类预期，需要高质量的指令对话，这通常需要多样化且深入的指令。现有的方法利用两个LLM进行自动收集：一个模拟用户提出指令，另一个充当系统代理进行响应。然而，这些用户模拟器难以在没有明确指导的情况下模拟对话如何提出不同指令的规则，导致指令过于笼统。本文提出明确捕捉复杂规则来帮助用户模拟器提出多样化且深入的指令。具体来说，我们首先从各种真实的指令对话中归纳出高层次的指令策略，将其作为规则。之后，将不同的策略推演应用于新给定的对话场景，以提出各种指令。实验结果表明，我们的方法可以生成多样化且深入的指令。构建的多轮指令对话在后续的聊天模型上优于竞争基线。