LLM2D

摘要

arXiv:2504.14105v1 交叉公告类型摘要：当前的AI模型往往无法考虑到地方语境和语言，因为它们的训练数据主要以英语和西方互联网内容为主。这妨碍了这些模型在全球范围内的相关性、实用性和安全性，尤其是在它们获得越来越多的全球用户时。Amplify Initiative 是一个数据平台及方法，通过利用专家社区收集多样化、高质量的数据来解决这些模型的局限性。该平台旨在促进与领域专家的合作数据集创建，提供高质量多语言数据集的访问，并向数据作者提供认可。本文介绍了通过在撒哈拉以南非洲地区（加纳、肯尼亚、马拉维、尼日利亚和乌干达）进行的试点计划，与领域专家（例如医护人员、教师）合作创建数据集的方法。与这些国家的当地研究机构合作，试点计划展示了在敏感领域（例如医生、银行家、人类学家、人权和公民权利倡导者）中与155位专家合作创建数据集的端到端方法。利用Android应用程序实施的这一方法，创建了一个包含8,091条对抗查询的数据集，这些查询有七种语言（例如卢干达语、斯瓦希里语、Чchiedewa语），捕捉到了与关键主题（如信息误导和公众兴趣话题）相关的细微和背景性信息。该数据集可以用于评估模型在其所处语言背景下的安全性和文化相关性。