LLM2D

摘要

arXiv:2410.12445v2 宣告类型: replace-cross 摘要：Open Ko-LLM 领导板在基准测试韩语大规模语言模型（LLMs）方面发挥了重要作用，但仍然存在一些限制。尤其是，排行榜上过于学术的基准测试中定量改进与模型的质量影响之间的脱节需要解决。此外，基准测试套件大多由其英语版本的翻译版本组成，这可能无法充分捕捉韩语的细微之处。为了解决这些问题，我们提出了 Open Ko-LLM 领导板2，这是之前 Open Ko-LLM 领导板的改进版本。原始基准测试完全被新的任务所取代，这些任务与现实世界的能力更为接近。此外，我们还引入了四个新的原生韩语基准测试，以更好地反映韩语的独特特征。通过这些改进，Open Ko-LLM 领导板2旨在为推进韩语 LLM 提供更有意义的评估。