LLM2D

摘要

arXiv:2312.12050v2 通告类型: replace-cross 摘要：在过去的十年里，拐点检验（Dip-test）作为单一维度样本中模态性的参数自由统计检验方法，在数据挖掘社区中获得了越来越多的关注。该检验返回一个所谓的拐点值（Dip-value）和一个相应的样本单模性的概率（Dip-p-value）。这两个值之间的关系呈S形。然而，这种特定的变换依赖于样本大小。许多基于Dip的聚类算法使用经过自助采样的查找表，将拐点值（Dip）转换为特定范围内某些样本大小的拐点概率值（Dip-p）。我们提出了一种特别设计的S形函数，作为这些最先进的查找表的替代品。这加速了计算，并为每个单独的样本大小提供了从拐点值（Dip）到拐点概率值（Dip-p）的变换的近似值。此外，该函数是可微的，因此可以轻松地集成到使用梯度下降的机器学习方案中。我们通过将我们的函数应用于一种新的子空间聚类算法Dip'n'Sub来展示这一点。通过广泛的实验，我们强调了我们提议的不同优点。