LLM2D

摘要

大型语言模型 (LLM) 的快速发展突显了对评估其核心能力（如推理、知识和常识）的鲁棒评估框架的需求，从而催生了某些广泛使用的基准套件，例如 H6 基准。然而，这些基准套件主要针对英语构建，在 LLM 开发方面，如泰语等代表性不足的语言缺乏此类基准。另一方面，为泰语开发 LLM 还应包括增强文化理解和核心能力。为了应对泰语 LLM 研究中的这两个挑战，我们提出了两个关键基准：泰语-H6 和泰语文化和语言智能基准 (ThaiCLI)。通过对具有多语言能力的各种 LLM 进行全面评估，我们对所提出的基准及其对泰语 LLM 开发的贡献进行了全面分析。此外，我们将公开发布数据集和评估代码，以鼓励对泰语 LLM 的进一步研究和开发。