LLM2D
基于持久匹配图的子集拓扑质量
Topological Quality of Subsets via Persistence Matching Diagrams
作者: \'Alvaro Torras-Casas, Eduardo Paluzo-Hidalgo, Rocio Gonzalez-Diaz
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2306.02411v3

摘要

数据质量对于机器学习模型的成功训练、泛化和性能至关重要。我们提出使用拓扑数据分析技术来衡量子集与其所代表的数据集之间的质量。具体来说,我们定义了持久匹配图,这是一种从将嵌入与持久同源性相结合而来的拓扑不变量。我们提供了一种使用最小生成树来计算它的算法。此外,该不变量使我们能够理解子集是否“很好地代表”了来自更大数据集的聚类,我们也用它来估计子集与完整数据集之间Hausdorff距离的界限。特别是,这种方法使我们能够解释为什么所选子集很可能导致监督学习模型的性能低下。