摘要
arXiv:2502.06876v1 声明类型: cross
摘要: 在帮助性、诚实性和无害性(3H 优化)方面实现大型语言模型(LLMs)的平衡对负责任的人工智能构成了基石,现有方法如数据混合策略面临专家知识依赖和优化信号冲突的局限性。虽然模型合并提供了一种有希望的替代方案,通过集成专业化模型,但其在 3H 优化方面的潜力尚未得到充分探索。本文建立了首个针对 3H 对齐 LLM 的模型合并基准,系统地评估了 15 种方法(12 种无需训练的合并方法和 3 种数据混合技术),跨越了与 5 个标注维度、2 个 LLM 家族和 2 个训练范式相关的 10 个数据集。我们的分析揭示了三点关键见解:(i) 对 3H 尺度之间之前被忽视的合作/冲突关系;(ii) 模型合并方法在平衡对齐权衡方面的持续优越性,比数据混合方法更为优越;(iii) 通过冗余组件修剪和异常值缓解在参数级冲突解决中的关键作用。基于这些发现,我们提出了 R-TSVM,一种增强重新加权任务特征向量合并方法,该方法结合了具有异常值感知的参数权重和针对 LLM 重尾参数分布和稀疏性的自适应稀疏性选择策略,进一步提高了 LLM 的对齐程度。我们的模型将在 https://huggingface.co/Jinluan 获取。