LLM2D

摘要

arXiv:2502.03397v1 宣告类型: cross 摘要: 将大型语言模型与人类价值观相结合并在任务中反映这些价值观，尤其是在需要精细的人类监督的任务中，是一项艰巨的任务，因为依赖人类专业知识来提供上下文相关的指导资源密集且耗时。以往的工作利用预定义的规则集或原则来引导模型的行为（Bai et al., 2022；Sun et al., 2023）。然而，这些原则往往是通用的，使其难以适应每个单独的输入查询或上下文。在本文中，我们提出了现场原则 (Situated-PRInciples，简称SPRI) 体系结构，这是一种设计用于自动实时为每个输入查询生成引导原则，并利用这些原则来使每个响应保持一致的方法。我们评估了SPRI在三个任务上的表现，并展示了以下几点：1) SPRI可以在复杂的领域特定任务中导出原则，其性能与专家手工制作的原则相当；2) SPRI生成的原则导致了实例特定的标准，这些标准优于以往的LLM作为裁判的框架；3) 使用SPRI生成合成的SFT数据可以显著提高真实性。我们已在https://github.com/honglizhan/SPRI-public发布了我们的代码和模型生成。