LLM2D

摘要

arXiv:2503.22115v1 交叉领域公告类型: cross 摘要：评估大型语言模型（LLMs）的价值对齐传统上依赖于单句对抗提示，这些提示直接通过伦理敏感或有争议的问题挑战模型。然而，随着AI安全技术的迅速发展，模型已经更加擅长规避这些简单的测试，这限制了它们在揭示潜在偏见和伦理立场方面的有效性。为了解决这一局限性，我们提出了一种更新的价值对齐基准测试，该测试超越了单句提示，通过引入多轮对话和叙事场景。这种方法增强了评估的隐蔽性和对抗性，使其对现代LLMs中实施的表面性保护措施更加 robust。我们设计并实现了一个数据集，其中包括对话陷阱和伦理模糊的故事讲述，系统评估LLMs在更细腻和情境丰富的环境中对这些场景的响应。实验结果表明，这种方法可以有效地揭示传统单一评估中未能检测到的潜在偏见。我们的研究结果突显了在LLMs中进行上下文和动态测试的必要性，为更复杂和现实的人工智能伦理与安全性评估铺平了道路。