摘要
arXiv:2503.18991v1 类型: cross
摘要:使大规模语言模型(LLMs)与人类的偏好和价值观保持一致对实际应用至关重要。然而,当前的对齐方法面临着三个主要限制:(1) 依赖于昂贵的人工注释;(2) 对齐税;(3) 浅层对齐容易受到囚徒突变攻击。此外,当前的对齐数据集常常存在分布不均的问题,导致某些话题的过度代表性和其他话题的忽视。为了解决这些问题,我们提出了SRMIR(基于反省推理的阴影奖励模型),灵感来源于成员推理攻击中的阴影模型。我们首先利用LLMs的反省推理能力,构建了一个包含7种有害类型且结构化提示的安全链草案(CoD)数据集,然后通过组相对策略优化(GRPO)训练一系列专门的奖励模型来引导策略优化。我们采用了两种策略——线性组合和分类方法——将阴影奖励模型集成到策略优化中。通过比较,我们发现尽管后者的计算成本较高,但它在对齐方面取得了更优的结果。在多个LLMs上的实验表明,SRMIR显著优于现有方法。