LLM2D

摘要

arXiv:2502.19567v2 公告类型: replace-cross 摘要: 开源机器学习(ML)数据集和模型的快速采用使今天的人工智能应用在整个机器学习生命周期中面临诸如数据污染和供应链攻击等关键风险。随着监管压力不断增加，要求通过提高透明度来解决这些问题，机器学习模型供应商面临着在满足这些要求的同时平衡数据和知识产权保密性的挑战。我们提出了一种名为Atlas的框架，该框架使全可验证的机器学习管道成为可能。Atlas利用开放的数据和软件供应链溯源规范来收集可验证的模型构件真实性记录和端到端的元数据。Atlas结合了可信硬件和透明日志，以增强元数据的完整性，保持数据的保密性，并在从训练到部署的机器学习管道操作过程中限制未经授权的访问。我们对Atlas的原型实现结合了几个开源工具，构建了一个机器学习生命周期透明系统，并通过两个案例研究的机器学习管道评估了Atlas的实际可行性。