LLM2D
低资源语言领域基准数据集质量评估:以土耳其语为例
Evaluating the Quality of Benchmark Datasets for Low-Resource Languages: A Case Study on Turkish
作者: Ay\c{s}e Aysu Cengiz, Ahmet Kaan Sever, Elif Ecem \"Um\"utl\"u, Naime \c{S}eyma Erdem, Burak Aytan, B\"u\c{s}ra Tufan, Abdullah Topraksoy, Esra Dar{\i}c{\i}, Cagri Toraman
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.09714v1

摘要

arXiv:2504.09714v1 宣传类型:交叉 摘要:对来自英语或多种语言资源的翻译或改编数据集的依赖引入了语言和文化适应性方面的问题。本研究通过评估17个常用的土耳其基准数据集的质量,以应对对稳健且文化适宜的标准的需求。使用一个全面的框架来评估六个标准,人类注释者和LLM注释者提供详细的评估,以识别数据集的优势和不足。 我们的结果显示,70%的基准数据集未能达到我们的启发式质量标准。技术术语使用的正确性是最重要的标准,但审查的数据集中有85%的标准未被满足。尽管LLM注释者显示出潜力,但在理解文化常识知识和解读流畅、明确的文本方面,它们的效果不如人类注释者。GPT-4o在语法和技术任务的标记能力方面更强,而Llama3.3-70B在正确性和文化知识评估方面表现突出。我们的发现强调了在为低资源语言创造和调整数据集时进行更严格的质量控制的迫切需求。