摘要
arXiv:2504.02151v1 数据类型: cross
摘要:人工智能(AI)在编码、图像处理和数据预测等过程中的快速应用意味着我们需要全面了解和验证我们正在处理的数据。本文深入探讨了分析高维数据时面临的挑战,尤其是在数据变得过于复杂的情况下。在数据分析中,传统方法往往关注输入变量之间的直接联系,而这可能会忽略数据中的更复杂关系。
为了应对这些挑战,我们研究了几种经过测试的技术,例如移除特定变量以观察其影响,并使用统计分析来找到多个变量之间的联系。我们还考虑了合成数据的作用以及不同传感器之间信息有时可能是冗余的。这些分析通常计算成本非常高,并且往往需要大量的人力来理解结果。
一种常见方法是将整个数据集视为一个整体,并应用高级模型对其进行处理。然而,这在数据集更大、噪声更多和模型更复杂的情况下可能会成为一个问题。因此,我们建议一些方法来识别总体模式,这些模式可以帮助进行分类或回归任务,基于更为简单的方法可能会更具可理解性。
我们的研究涉及两个数据集:一个实际数据集和一个合成数据集。目标是创建一种方法,该方法在全球范围内突出显示关键特征,这些特征导致预测,从而使数据集的验证或量化过程更为简单。通过使用这种方法降低维度,我们可以简化所使用的模型,从而澄清我们获得的见解。此外,我们的方法可以揭示特定输入与输出之间未被探索的关系,提供进一步验证这些新连接的方式。