LLM2D

摘要

arXiv:2503.18497v2 宣告类型: replace-cross 摘要：从数据训练得到的人工智能模型仅能与其基础数据一样优秀。训练数据中的偏差传导到机器学习模型的输出中是文献中记载且理解良好的现象，但防止这些不良影响的机制却发展较少。确保在数据收集过程中数据清洁的努力，例如使用有偏差意识的采样，当控制数据收集的实体同时训练AI模型时最为有效。在数据已经可用的情况下，我们如何找出数据已被操纵，即“污染”，以确保不会将不良行为训练进机器学习模型中？这是一项与仅仅提升逼近精度或效率根本不同的挑战，我们提供了一种方法来测试训练数据中的缺陷，建立可靠的地面真实值，以用于后续机器学习模型的训练（任何类型的）。与广泛研究的使用从数据生成的模糊规则来逼近数据的问题不同，我们的方法依赖于在看到测试数据之前定义规则。因此，所提出的方法还可以发现隐藏的错误模式，这些模式也可能有重大影响。我们的方法扩展了传统统计测试的能力，让“测试条件”可以是任何布尔条件，以描述我们希望确定的数据模式。该方法将模糊推理纳入回归模型，以获得两者的优点：模糊逻辑的可解释性与回归的统计特性和诊断功能，并且还可以适用于“小数据”，因此不需要像深度学习方法那样需要大型数据集。我们提供了一个开源实现进行演示和实验。