摘要
面向问题的聚类自动机器学习 (PoAC) 框架提出了一种新颖且灵活的方法来自动化聚类任务,它克服了传统自动机器学习解决方案的缺点。传统方法通常依赖于预定义的内部聚类有效性指标 (CVI) 和静态元特征,限制了它们在各种聚类任务中的适应性和有效性。相比之下,PoAC 在聚类问题、CVI 和元特征之间建立了动态连接,允许用户根据其任务的特定上下文和目标来定制这些组件。PoAC 的核心是使用一个代理模型,该模型在先前聚类数据集和解决方案的大型元知识库上进行训练,使其能够推断新聚类管道的质量并为未见数据集合成最佳解决方案。与许多受固定评估指标和算法集约束的自动机器学习框架不同,PoAC 是算法无关的,可以无缝地适应不同的聚类问题,而无需额外的训练数据或重新训练。实验结果表明,PoAC 不仅在各种数据集上优于最先进的框架,而且在数据可视化等特定任务中也表现出色,并突出了其根据数据集复杂性动态调整管道配置的能力。