LLM2D

摘要

arXiv:2502.12386v1 安全类型：交叉摘要：人工智能（AI）技术与系统已经取得了快速发展。然而，确保这些系统的可靠性对于增强公众对其使用信心至关重要。这需要对AI系统的可靠性数据进行建模和分析。AI可靠性研究中的一个主要挑战，尤其是对于学术界的研究人员来说，是没有现成的可用的AI可靠性数据。为了解决这一缺口，本文集中于对可用的AI可靠性数据进行全面审查，并建立了DR-AIR：一个AI可靠性数据存储库。具体而言，我们介绍了用于评估AI可靠性的关键测量和数据类型，以及收集这些数据的方法学。我们还提供了当前可用数据集的详细描述，并附有示例说明。此外，我们概述了DR-AIR存储库的设置，并展示了其实际应用。该存储库为AI可靠性研究提供了容易访问的数据集。我们认为这些努力将极大地促进AI研究社区，通过提供宝贵的可靠性数据访问途径，并促进跨各种AI学术领域的合作。在论文结尾，我们提出了一个行动号召，鼓励研究社区贡献和分享AI可靠性数据，以进一步促进这一关键领域的研究。