摘要
arXiv:2504.05995v1 交叉公告类型
摘要:大型语言模型(LLMs)的迅速发展引发了关于文化偏见、公平性和其在多元化语言和欠代表性区域背景下的适用性的担忧。为了增强和基准测试LLMs的能力,需要开发专注于多语言、当地和文化背景的大规模资源。在这个研究中,我们提出了一种名为NativQA的框架,该框架能够无缝构建大规模、文化和区域对齐的QA数据集,使用母语。该框架利用用户定义的种子查询并利用搜索引擎收集特定位置的日常信息。该框架在24个国家的39个地点以及7种语言上进行了评估,从极低资源语言到高资源语言不等,总共产生了超过30万对问题-答案(QA)对。开发的资源可用于LLM基准测试和进一步微调。该框架已公开提供给社区(https://gitlab.com/nativqa/nativqa-framework)。