摘要
arXiv:2409.03257v2 类型公告:替换交叉
摘要:本文在十一个月内进行纵向研究,以解决之前关于Open Ko-LLM Leaderboard的研究所依赖的仅五个月受限观测期的局限性。通过延长分析时间,我们旨在提供对开发韩语大型语言模型(LLMs)进步的更全面理解。我们的研究由三个主要的研究问题引导:(1)在Open Ko-LLM Leaderboard上,随着时间的推移,在多样化的任务中提高LLM性能的具体挑战是什么?(2)模型规模如何影响各种基准上的任务性能相关性?(3)Open Ko-LLM Leaderboard上的排行榜排名模式随着时间的推移发生了怎样的变化?通过对这一时期内的1,769个模型进行分析,我们的研究提供了对LLM持续进步和评估框架演变性质的全面考察。