LLM2D

摘要

arXiv:2410.03738v2 更新类型: replace-cross 摘要：聚类分析在各个领域和应用中发挥着重要作用，例如市场营销中的客户细分。这些应用场景通常涉及多模态数据，包括表格数据和文本数据，这使得表示隐藏模式以获取有意义的聚类变得具有挑战性。本文介绍了ERASMO框架，该框架旨在对预训练语言模型进行微调，以便处理文本编码的表格数据，并从微调模型中生成嵌入。ERASMO使用一个文本转换器将表格数据转换为文本格式，使语言模型能够更有效地处理和理解数据。此外，ERASMO通过随机特征序列打乱和数字语言化等技术生成丰富上下文和结构代表性的嵌入。使用多个数据集和基线方法进行了广泛的实验评估。我们的结果表明，ERASMO充分利用了每个表格数据集的特定上下文，从而生成更精确和细腻的嵌入以进行准确的聚类。这种方法通过捕获各种表格数据中的复杂关系模式来提高聚类性能。