LLM2D

摘要

arXiv:2503.24310v1 声明类型: cross 摘要：在本研究中，我们介绍了BEATS，一种用于评估大型语言模型（LLMs）中的偏差、伦理、公平性和事实性的新型框架。基于BEATS框架，我们提出了一个用于评估LLMs的偏差基准，该基准涵盖了29个不同的衡量指标。这些指标涵盖了广泛的特点，包括人口统计学、认知和社会偏差，以及伦理推理、群体公平性和与误导信息风险相关的事实性衡量标准。这些指标使定量评估LLM生成的响应在多大程度上可能延续社会偏见得以扩展系统性不平等成为可能。要想在这一基准中获得高分，LLM必须在他们的响应中表现出非常公平的行为，这意味着这成为了负责任的人工智能评估的严格标准。我们实验数据得出的实证结果表明，37.65% 的由行业领先模型生成的输出包含某种形式的偏差，突显了在关键决策系统中使用这些模型带来的重大风险。BEATS框架和基准提供了可扩展且统计上严格的基准评估LLMs的方法，诊断驱动偏差的因素，并开发缓解策略。借助BEATS框架，我们的目标是帮助开发更具社会责任和伦理对齐的人工智能模型。