LLM2D

摘要

arXiv:2412.12848v2 安全公告类型: 替换-交叉摘要: 随着大型语言模型（LLMs）的兴起及其广泛应用，确保其安全性变得至关重要，以防止对人类造成伤害并促进道德行为。然而，通过大规模数据训练直接评估价值取向（即支持或反对）是不可信且不可解释的。我们认为，使LLMs依托社会规范来做出道德决策，可以帮助它们理解和预测道德判断。然而，捕捉人类价值观仍然是一个挑战，因为在特定情境下，相关的规范可能会相互冲突。考虑那些得到大多数人支持并促进社会福祉的规范（例如，“不要作弊”）更有可能被接受并广泛采纳。因此，在做出道德决策之前，LLMs识别特定情境下的适当规范是必要的。为此，我们提出了一种名为\textit{ClarityEthic}的新颖道德判断方法，该方法结合了LLMs的推理能力和对比学习，从不同角度揭露与人类行为相关的社会规范，并选择最可靠的规范以提高判断准确性。广泛实验表明，在道德判断任务中，我们的方法优于现有最先进的方法。此外，人类评估确认生成的社会规范提供了支持判断的合理解释。这表明，在模仿人类道德策略的基础上建模人类道德判断有可能提高LLMs的道德行为。