LLM2D

摘要

人工智能的快速发展促使人们越来越重视其在开发和实践中的伦理考量。这导致了越来越复杂的模型审计和报告要求的制定，以及治理框架的建立，以减轻对个人和社会的潜在风险。在这个关键时刻，我们回顾了在支持重要基础设施并得到广泛应用的 OSS 等非正式领域中，促进负责任的人工智能和透明度的实际挑战。我们重点关注模型性能评估如何促进或阻碍对模型局限性、偏差和其他风险的探究。我们对 7903 个 Hugging Face 项目的受控分析发现，风险记录与评估实践密切相关。然而，来自该平台最受欢迎的竞争排行榜的提交（N=789）表明，高绩效者在问责方面较差。我们的发现可以为人工智能提供者和法律学者提供信息，帮助他们设计干预措施和政策，既能保留开源创新，又能激励负责任的采用。