摘要
arXiv:2505.00204v1 宣告类型: 新
摘要:随着人工智能系统嵌入到实际应用中,确保其符合伦理标准至关重要。尽管现有的AI伦理框架强调公平、透明和问责制,但它们往往缺乏可操作的评估方法。本文介绍了一种使用Responsible AI Labs(RAIL)框架的系统方法,该框架包括八个可测量维度,用于评估大型语言模型(LLMs)的规范行为。我们应用此框架对Anthropic的“自然情境中的价值观”数据集进行了分析,该数据集包含超过308,000个匿名的与Claude的对话以及超过3,000个标注的价值表达。我们的研究将这些价值映射到RAIL维度,计算合成分数,并提供有关LLMs在实际使用中的伦理行为的见解。