LLM2D
代表弱势群体:泰国大型语言模型开发的文化和核心能力基准
Representing the Under-Represented: Cultural and Core Capability Benchmarks for Developing Thai Large Language Models
作者: Dahyun Kim, Sukyung Lee, Yungi Kim, Attapol Rutherford, Chanjun Park
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2410.04795v1

摘要

大型语言模型 (LLM) 的快速发展突显了对评估其核心能力(如推理、知识和常识)的鲁棒评估框架的需求,从而催生了某些广泛使用的基准套件,例如 H6 基准。然而,这些基准套件主要针对英语构建,在 LLM 开发方面,如泰语等代表性不足的语言缺乏此类基准。另一方面,为泰语开发 LLM 还应包括增强文化理解和核心能力。为了应对泰语 LLM 研究中的这两个挑战,我们提出了两个关键基准:泰语-H6 和泰语文化和语言智能基准 (ThaiCLI)。通过对具有多语言能力的各种 LLM 进行全面评估,我们对所提出的基准及其对泰语 LLM 开发的贡献进行了全面分析。此外,我们将公开发布数据集和评估代码,以鼓励对泰语 LLM 的进一步研究和开发。