LLM2D

摘要

基础模型（FMs）的兴起，加上针对其风险和影响的监管努力，引发了人们对开源模型的浓厚兴趣。然而，现有的语音基础模型（SFMs）即使声称是开源的，也未能完全遵守开源原则，因为没有现有的 SFM 在开源条款下公开提供模型权重、代码和训练数据。在本研究中，我们通过关注欧盟（EU）的 24 种官方语言，迈出了填补这一差距的第一步。我们通过调查自动语音识别数据集和在开源许可证下未标记的语音语料库，收集了适合的训练数据，总计 950,000 小时。此外，我们以宽松的 CC-BY 许可证发布了 441,000 小时未标记数据的自动转录，从而促进为欧盟语言创建开源 SFMs。