摘要
arXiv:2504.01850v1 宣告类型:交叉
摘要:如今,开发人员越来越依赖由大型语言模型(LLM)驱动的解决方案来协助其编码任务。这使得有必要将这些工具与人类价值观对齐,以防止恶意误用。在本文中,我们提出了一种全面的框架,用于评估大型语言模型在软件工程领域的潜在危害性。我们首先开发了一种潜在有害的软件工程场景分类法,随后基于此分类法创建了一组样本提示集。为了系统地评估响应,我们设计并验证了一个自动评估器,该评估器可以对各种LLM(无论是开源模型还是闭源模型,以及通用型和代码特定型的LLM)的输出进行分类。此外,我们还调查了模型大小、架构家族和对齐策略对生成有害内容倾向的影响。结果表明,各种LLM在无害性对齐方面存在显著差异。我们发现,一些模型和模型家族,如Openhermes,比其他模型更具危害性,而代码特定模型的表现并不优于其通用模型。值得注意的是,一些微调模型由于设计选择,其表现显著差于其基础模型。另一方面,我们发现较大的模型更倾向于提供帮助,并且较少可能提供有害信息。这些结果突出了针对软件工程任务独特挑战的定位对齐策略的重要性,并为这一关键领域的未来工作奠定了基础。