LLM2D

摘要

arXiv:2502.06876v2 公告类型: replace-cross 摘要：在帮助性、诚实性和无害性（3H 优化）方面实现大型语言模型（LLMs）的均衡对齐构成负责任的人工智能的基本支柱，现有的方法，如数据混合策略，存在依赖专家知识和优化信号冲突的局限性。尽管模型合并作为一种有希望的替代方案通过整合专门化的模型提供了可能性，但在3H优化方面的潜力尚未得到充分探索。本文建立了第一个针对3H对齐LLMs的全面模型合并基准，在帮助性、诚实性和无害性五个标注维度、两种LLM家族和两种训练范式相关的10个数据集中系统地评估了15种方法（12种无训练的模型合并和3种数据混合技术）。我们的分析揭示了三个关键见解：（i）3H维度之间以前未被注意到的协作/冲突关系，（ii）在权衡对齐方面的合并模型在均衡对齐方面的一贯优越性优于数据混合方法，以及（iii）通过冗余组件剪枝和异常值缓解参数级别冲突解决的关键作用。基于这些发现，我们提出了R-TSVM（ Reweighting-enhanced Task Singular Vector Merging）方法，该方法结合了异常值意识参数权重和根据LLMs的重尾参数分布和稀疏性进行自适应秩选择策略，进一步提高了多次评估中的LLM对齐。我们已发布经过训练的模型供进一步探索。