摘要
欧盟人工智能法案(AI法案)是朝着负责任的人工智能发展迈出的重要一步,但缺乏明确的技术解释,这使得评估模型的合规性变得困难。本工作提出了COMPL-AI,一个全面的框架,包括:(i)对欧盟AI法案的首次技术解读,将该法案的广泛监管要求转化为可衡量的技术要求,重点关注大型语言模型(LLM),以及(ii)一个基于对最先进的LLM基准进行全面调查和实施的开源、以法案为中心的基准测试套件。通过在COMPL-AI的背景下评估12种著名的LLM,我们揭示了现有模型和基准的不足,特别是在稳健性、安全性、多样性和公平性等方面。这项工作强调了需要将重点转向这些方面,鼓励平衡地开发LLM和更全面的与法规一致的基准测试。同时,COMPL-AI首次展示了将法案的义务提升到更具体、更技术层面的可能性和困难。因此,我们的工作可以作为对模型提供者提出可操作建议的第一个有用步骤,并有助于欧盟正在进行的努力,例如起草GPAI行为准则,以实现该法案的应用。