摘要
arXiv:2412.12848v2 安全公告类型: 替换-交叉
摘要: 随着大型语言模型(LLMs)的兴起及其广泛应用,确保其安全性变得至关重要,以防止对人类造成伤害并促进道德行为。然而,通过大规模数据训练直接评估价值取向(即支持或反对)是不可信且不可解释的。我们认为,使LLMs依托社会规范来做出道德决策,可以帮助它们理解和预测道德判断。然而,捕捉人类价值观仍然是一个挑战,因为在特定情境下,相关的规范可能会相互冲突。考虑那些得到大多数人支持并促进社会福祉的规范(例如,“不要作弊”)更有可能被接受并广泛采纳。因此,在做出道德决策之前,LLMs识别特定情境下的适当规范是必要的。为此,我们提出了一种名为\textit{ClarityEthic}的新颖道德判断方法,该方法结合了LLMs的推理能力和对比学习,从不同角度揭露与人类行为相关的社会规范,并选择最可靠的规范以提高判断准确性。广泛实验表明,在道德判断任务中,我们的方法优于现有最先进的方法。此外,人类评估确认生成的社会规范提供了支持判断的合理解释。这表明,在模仿人类道德策略的基础上建模人类道德判断有可能提高LLMs的道德行为。