摘要
arXiv:2504.09714v2 宣告类型: 替换-交叉
摘要:依赖于英语或多种语言资源的翻译或改编数据集引入了关于语言和文化适用性的挑战。本研究通过评估17个常用土耳其基准数据集的质量,以解决对稳健且文化适宜的基准的需求。使用一个全面的评估框架,评估六个标准,人类和LLM裁判标注者提供详细的评估,以确定数据集的优势和不足。
我们的结果显示,70%的基准数据集未能达到我们的启发式质量标准。技术术语的正确使用是最强的标准,但考查的数据集中85%的标准未被满足。尽管LLM裁判显示出了潜力,但在理解文化常识知识和解释流畅、明确的文本方面,它们的效果不如人类标注者。GPT-4o 在语法和技术任务的打标能力方面更强,而Llama3.3-70B 在正确性和文化知识评估方面表现出色。我们的研究结果强调了对低资源语言的数据集创建和改编进行更严格质量控制的紧迫需求。