摘要
聚类分析在各种领域和应用中发挥着至关重要的作用,例如营销中的客户细分。这些环境通常涉及多模态数据,包括表格和文本数据集,这使得代表隐藏模式以获得有意义的聚类变得具有挑战性。本研究介绍了 ERASMO,这是一个旨在对文本编码的表格数据进行微调预训练语言模型并从微调模型生成嵌入的框架。ERASMO 采用文本转换器将表格数据转换为文本格式,使语言模型能够更有效地处理和理解数据。此外,ERASMO 通过随机特征序列混洗和数字语言化等技术生成上下文丰富且结构代表性的嵌入。使用多个数据集和基线方法进行了广泛的实验评估。我们的结果表明,ERASMO 充分利用了每个表格数据集的特定上下文,从而为准确的聚类生成更精确和细致的嵌入。这种方法通过捕获不同表格数据中的复杂关系模式来增强聚类性能。