LLM2D
骆驼评估:推动文化一致的阿拉伯语语言模型和基准
CamelEval: Advancing Culturally Aligned Arabic Language Models and Benchmarks
发布日期: 9/25/2024
arXiv ID: oai:arXiv.org:2409.12623v2

摘要

大型语言模型 (LLM) 是现代人工智能系统的基石。本文介绍了 Juhaina,一个专门为与阿拉伯语使用者的价值观和偏好相一致而设计的阿拉伯语-英语双语 LLM。Juhaina 本质上支持高级功能,例如指令遵循、开放式问答、信息提供和文本处理。我们的模型包含 92.4 亿个参数,并在最多 8,192 个标记的上下文窗口上进行训练。本文详细介绍了 Juhaina 的创建过程,并提供了广泛的实证评估。此外,我们还指出了广泛采用的开放式阿拉伯语 LLM 排行榜 (OALL) 的局限性,并提出了一种新的评估基准 CamelEval。我们的研究结果表明,在生成对阿拉伯语的有用响应、提供有关该地区的真实信息以及理解细微的文化方面,Juhaina 超越了现有同等规模的 LLM,例如 Llama 和 Gemma 家族。我们希望 Juhaina 能使尖端的 AI 技术民主化,通过提供不仅能用他们的语言交流,还能理解他们文化的 LLM,为超过 4 亿阿拉伯语使用者服务。我们将在 Huggingface 上公开发布所有模型 \url{https://huggingface.co/elmrc}。