LLM2D

摘要

大型语言模型 (LLM) 的快速发展凸显了对能够评估其核心能力（例如推理、知识和常识）的鲁棒评估框架的需求，这导致了某些广泛使用的基准套件（例如 H6 基准）的出现。然而，这些基准套件主要针对英语构建，在 LLM 发展欠发达的语言（如泰语）方面，此类基准套件匮乏。另一方面，为泰语开发 LLM 也应该包括增强文化理解以及核心能力。为了应对泰语 LLM 研究中的这两个挑战，我们提出了两个关键基准：泰语 H6 和泰语文化与语言智能基准 (ThaiCLI)。通过对具有多语言能力的各种 LLM 进行彻底评估，我们对所提出的基准及其对泰语 LLM 发展的贡献进行了全面的分析。此外，我们将公开发布数据集和评估代码，以鼓励对泰语 LLM 的进一步研究和开发。