LLM2D
COMPL-AI框架:对欧盟人工智能法案的技术解读与LLM基准测试套件
COMPL-AI Framework: A Technical Interpretation and LLM Benchmarking Suite for the EU Artificial Intelligence Act
作者: Philipp Guldimann, Alexander Spiridonov, Robin Staab, Nikola Jovanovi\'c, Mark Vero, Velko Vechev, Anna-Maria Gueorguieva, Mislav Balunovi\'c, Nikola Konstantinov, Pavol Bielik, Petar Tsankov, Martin Vechev
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2410.07959v2

摘要

arXiv:2410.07959v2 Announce Type: replace-cross 摘要:欧盟人工智能法案(AI Act)是负责任人工智能开发的一个重要步骤,但缺乏明确的技术解释,使得难以评估模型的合规性。本文提出了COMPL-AI,这是一个全面的框架,包括(i)欧盟AI法案的第一项技术解释,将广泛的监管要求转化为可测量的技术要求,重点是大型语言模型(LLMs),以及(ii)一个以全面调查和最先进的LLM基准实现为中心的开源基准套件。通过对12款知名LLM在COMPL-AI框架下的评估,我们揭示了现有模型和基准的不足,特别是在鲁棒性、安全性、多样性和公平性方面。本文强调了需要将关注点转移到这些方面的重要性和平衡发展大型语言模型以及更全面的法规对齐基准的必要性。同时,COMPL-AI首次展示了将法案的义务带到更具体的技术层面的可能性和困难。因此,我们的工作可以作为为模型提供商提供可操作建议的第一步,有助于欧盟持续努力应用该法案,例如制定GPAI行为守则。