LLM2D
野生RAIL:借助 Anthropic 的价值数据集实现负责任的AI评估操作化
RAIL in the Wild: Operationalizing Responsible AI Evaluation Using Anthropic's Value Dataset
作者: Sumit Verma, Pritam Prasun, Arpit Jaiswal, Pritish Kumar
发布日期: 5/2/2025
arXiv ID: oai:arXiv.org:2505.00204v1

摘要

arXiv:2505.00204v1 宣告类型: 新 摘要:随着人工智能系统嵌入到实际应用中,确保其符合伦理标准至关重要。尽管现有的AI伦理框架强调公平、透明和问责制,但它们往往缺乏可操作的评估方法。本文介绍了一种使用Responsible AI Labs(RAIL)框架的系统方法,该框架包括八个可测量维度,用于评估大型语言模型(LLMs)的规范行为。我们应用此框架对Anthropic的“自然情境中的价值观”数据集进行了分析,该数据集包含超过308,000个匿名的与Claude的对话以及超过3,000个标注的价值表达。我们的研究将这些价值映射到RAIL维度,计算合成分数,并提供有关LLMs在实际使用中的伦理行为的见解。