LLM2D

摘要

arXiv:2302.05508v2 通告类型: replace-cross 摘要：近期的研究表明，大型预训练语言模型（LLMs），如BERT和GPT-2，在标记预测方面表现出偏见，这些偏见通常是其训练语料库中存在数据分布的反映。为应对这一问题，已经提出了一系列数学框架来量化、识别和减轻这种偏见的可能性。在本文中，我们提供了一项针对广泛使用的LLMs，如BERT、GPT-2等的全面综述。此外，我们介绍了Fairpy，一个模块化和可扩展的工具包，它提供了即插即用的接口，用于集成这些数学工具，使用户能够评估预训练和自定义语言模型。Fairpy支持现有的去偏算法的实现。该工具包是一个开源项目，并可在以下地址公开获取：\href{https://github.com/HrishikeshVish/Fairpy}{https://github.com/HrishikeshVish/Fairpy}