摘要
现今的多语言大型语言模型 (LLMs) 并不一定能为菲律宾用户提供文化上恰当且相关的回应。我们引入了 Kalahi,一个由菲律宾母语人士共同创建的文化 LLM 评估套件。它包含 150 个高质量、手工制作的细致入微的提示,用于测试 LLM 在生成与菲律宾共享文化知识和价值观相关的文本方面的能力。LLM 在 Kalahi 中的表现强劲表明模型能够生成类似于菲律宾人平均会在特定情况下说或做出的回应。我们对支持多种语言和菲律宾语的 LLM 进行了实验。结果表明,Kalahi 虽然对菲律宾人来说微不足道,但对 LLM 来说却极具挑战性,最佳模型仅正确回答了 46.0% 的问题,而菲律宾母语人士的正确率为 89.10%。因此,Kalahi 可用于准确可靠地评估 LLM 中菲律宾文化的表现。