LLM2D

摘要

arXiv:2504.10430v1 宣告类型: cross 摘要：最近在大型语言模型（LLMs）方面的进展使其能够接近人类级别的说服能力。然而，这种潜力也引发了关于LLM驱动说服安全风险的担忧，特别是它们通过操控、欺骗、利用漏洞和其他许多有害手段进行不道德影响的可能性。在这项工作中，我们通过两个关键方面对LLM说服安全性进行了系统的调查：（1）当初始说服目标看似具有伦理中立性时，LLMs是否适当地拒绝不道德的说服任务并在执行过程中避免使用不道德的策略，（2）影响因素如个性特征和外部压力如何影响其行为。为此，我们引入了PersuSafety，这是第一个全面评估说服安全性的框架，包括三个阶段，即说服场景创建、说服性对话模拟和说服安全评估。PersuSafety覆盖了6种不同的不道德说服主题和15种常见的不道德策略。通过对8种广泛使用的LLM进行广泛的实验，我们观察到大多数LLMs存在显著的安全问题，包括未能识别有害的说服任务以及利用各种不道德的说服策略。我们的研究要求在如说服那样的渐进性和目标驱动对话中更加重视提高安全对齐。