LLM2D

摘要

arXiv:2503.18991v1 类型: cross 摘要：使大规模语言模型（LLMs）与人类的偏好和价值观保持一致对实际应用至关重要。然而，当前的对齐方法面临着三个主要限制：(1) 依赖于昂贵的人工注释；(2) 对齐税；(3) 浅层对齐容易受到囚徒突变攻击。此外，当前的对齐数据集常常存在分布不均的问题，导致某些话题的过度代表性和其他话题的忽视。为了解决这些问题，我们提出了SRMIR（基于反省推理的阴影奖励模型），灵感来源于成员推理攻击中的阴影模型。我们首先利用LLMs的反省推理能力，构建了一个包含7种有害类型且结构化提示的安全链草案（CoD）数据集，然后通过组相对策略优化（GRPO）训练一系列专门的奖励模型来引导策略优化。我们采用了两种策略——线性组合和分类方法——将阴影奖励模型集成到策略优化中。通过比较，我们发现尽管后者的计算成本较高，但它在对齐方面取得了更优的结果。在多个LLMs上的实验表明，SRMIR显著优于现有方法。