LLM2D
代表弱势群体:泰国大型语言模型开发的文化和核心能力基准
Representing the Under-Represented: Cultural and Core Capability Benchmarks for Developing Thai Large Language Models
作者: Dahyun Kim, Sukyung Lee, Yungi Kim, Attapol Rutherford, Chanjun Park
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.04795v2

摘要

大型语言模型 (LLM) 的快速发展凸显了对能够评估其核心能力(例如推理、知识和常识)的鲁棒评估框架的需求,这导致了某些广泛使用的基准套件(例如 H6 基准)的出现。然而,这些基准套件主要针对英语构建,在 LLM 发展欠发达的语言(如泰语)方面,此类基准套件匮乏。另一方面,为泰语开发 LLM 也应该包括增强文化理解以及核心能力。为了应对泰语 LLM 研究中的这两个挑战,我们提出了两个关键基准:泰语 H6 和泰语文化与语言智能基准 (ThaiCLI)。通过对具有多语言能力的各种 LLM 进行彻底评估,我们对所提出的基准及其对泰语 LLM 发展的贡献进行了全面的分析。此外,我们将公开发布数据集和评估代码,以鼓励对泰语 LLM 的进一步研究和开发。