摘要
arXiv:2503.22115v1 交叉领域公告类型: cross
摘要:评估大型语言模型(LLMs)的价值对齐传统上依赖于单句对抗提示,这些提示直接通过伦理敏感或有争议的问题挑战模型。然而,随着AI安全技术的迅速发展,模型已经更加擅长规避这些简单的测试,这限制了它们在揭示潜在偏见和伦理立场方面的有效性。为了解决这一局限性,我们提出了一种更新的价值对齐基准测试,该测试超越了单句提示,通过引入多轮对话和叙事场景。这种方法增强了评估的隐蔽性和对抗性,使其对现代LLMs中实施的表面性保护措施更加 robust。我们设计并实现了一个数据集,其中包括对话陷阱和伦理模糊的故事讲述,系统评估LLMs在更细腻和情境丰富的环境中对这些场景的响应。实验结果表明,这种方法可以有效地揭示传统单一评估中未能检测到的潜在偏见。我们的研究结果突显了在LLMs中进行上下文和动态测试的必要性,为更复杂和现实的人工智能伦理与安全性评估铺平了道路。