LLM2D

摘要

arXiv:2502.10398v1 通告类型: cross 摘要: 在这项工作尚在进行中，我们研究了人工智能（AI）系统的验证，重点关注现有验证目录的实践应用和限制，通过尝试验证一个公开可用的AI系统。我们旨在评估当前方法在有效验证AI系统方面的工作效果，并探讨如何选择并使用可能未被主动维护或最初未旨在进行验证的公开访问AI系统进行样本验证过程。我们的方法论包括利用弗劳恩霍夫AI评估目录作为全面工具，系统地评估AI模型是否符合认证标准。我们发现，虽然目录有效地结构化了评估过程，但在使用时也可能繁琐且耗时。我们观察到一个没有活跃开发团队的AI系统的局限性，并强调了完整系统文档的重要性。最后，我们确定了一些使用的认证目录的局限性，并提出了如何简化认证过程的想法。