LLM2D
SPRI: 依据情境原则对准大型语言模型
SPRI: Aligning Large Language Models with Context-Situated Principles
作者: Hongli Zhan, Muneeza Azmat, Raya Horesh, Junyi Jessy Li, Mikhail Yurochkin
发布日期: 2/6/2025
arXiv ID: oai:arXiv.org:2502.03397v1

摘要

arXiv:2502.03397v1 宣告类型: cross 摘要: 将大型语言模型与人类价值观相结合并在任务中反映这些价值观,尤其是在需要精细的人类监督的任务中,是一项艰巨的任务,因为依赖人类专业知识来提供上下文相关的指导资源密集且耗时。以往的工作利用预定义的规则集或原则来引导模型的行为(Bai et al., 2022;Sun et al., 2023)。然而,这些原则往往是通用的,使其难以适应每个单独的输入查询或上下文。在本文中,我们提出了现场原则 (Situated-PRInciples,简称SPRI) 体系结构,这是一种设计用于自动实时为每个输入查询生成引导原则,并利用这些原则来使每个响应保持一致的方法。我们评估了SPRI在三个任务上的表现,并展示了以下几点:1) SPRI可以在复杂的领域特定任务中导出原则,其性能与专家手工制作的原则相当;2) SPRI生成的原则导致了实例特定的标准,这些标准优于以往的LLM作为裁判的框架;3) 使用SPRI生成合成的SFT数据可以显著提高真实性。我们已在https://github.com/honglizhan/SPRI-public发布了我们的代码和模型生成。