LLM2D

摘要

arXiv:2505.00204v1 宣告类型: 新摘要：随着人工智能系统嵌入到实际应用中，确保其符合伦理标准至关重要。尽管现有的AI伦理框架强调公平、透明和问责制，但它们往往缺乏可操作的评估方法。本文介绍了一种使用Responsible AI Labs（RAIL）框架的系统方法，该框架包括八个可测量维度，用于评估大型语言模型（LLMs）的规范行为。我们应用此框架对Anthropic的“自然情境中的价值观”数据集进行了分析，该数据集包含超过308,000个匿名的与Claude的对话以及超过3,000个标注的价值表达。我们的研究将这些价值映射到RAIL维度，计算合成分数，并提供有关LLMs在实际使用中的伦理行为的见解。