LLM2D
特定上下文语言模型的优势:Erasmian语言模型案例
The advantages of context specific language models: the case of the Erasmian Language Model
作者: Jo\~ao Gon\c{c}alves, Nick Jelicic, Michele Murgia, Evert Stamhuis
发布日期: 4/24/2025
arXiv ID: oai:arXiv.org:2408.06931v2

摘要

arXiv:2408.06931v2 宣告类型: replace-cross 摘要:目前提高语言模型性能的趋势似乎主要是通过增加参数数量(例如,当前最好的GPT4模型大约有1.7万亿个参数)或输入模型的训练数据量来实现的。然而,这种方法带来了计算资源和能源成本的显著增加,这些都损害了AI解决方案的可持续性,同时也存在隐私和误用的风险。在这篇论文中,我们介绍了Erasmian语言模型(ELM),一个针对特定场景的小型模型,拥有9亿个参数,由鹿特丹伊拉斯谟大学预训练并微调。我们展示了该模型在教室场景中进行论文写作时的表现适中,并且在该场景下的相关科目中实现了优越的性能。这对广泛机构和组织具有重要意义,表明针对特定场景的语言模型可能是资源受限且对隐私敏感的应用场景的一种可行替代方案。