LLM2D

摘要

arXiv:2409.03257v2 类型公告：替换交叉摘要：本文在十一个月内进行纵向研究，以解决之前关于Open Ko-LLM Leaderboard的研究所依赖的仅五个月受限观测期的局限性。通过延长分析时间，我们旨在提供对开发韩语大型语言模型（LLMs）进步的更全面理解。我们的研究由三个主要的研究问题引导：（1）在Open Ko-LLM Leaderboard上，随着时间的推移，在多样化的任务中提高LLM性能的具体挑战是什么？（2）模型规模如何影响各种基准上的任务性能相关性？（3）Open Ko-LLM Leaderboard上的排行榜排名模式随着时间的推移发生了怎样的变化？通过对这一时期内的1,769个模型进行分析，我们的研究提供了对LLM持续进步和评估框架演变性质的全面考察。