LLM2D

摘要

arXiv:2410.03738v2 类型: replace-cross 摘要：聚类分析在各个领域和应用中起着至关重要的作用，例如市场营销中的客户细分。这些场景通常涉及多模态数据，包括表格数据和文本数据集，这使得难以表示隐藏的模式以获得有意义的聚类。本研究引入了ERASMO框架，该框架旨在对预训练的语言模型进行微调，使其能够处理文本编码的表格数据，并从微调的模型中生成嵌入。ERASMO采用文本转换器将表格数据转换为文本格式，从而使语言模型能够更有效地处理和理解数据。此外，ERASMO通过随机特征序列打乱和数字名词化等技术生成丰富上下文和结构代表性的嵌入。采用了多个数据集和基准方法进行了广泛的实验评估。我们的结果表明，ERASMO充分利用了每个表格数据集的特定上下文，从而产生了更精确和细腻的嵌入，以实现准确的聚类。这种方法通过捕获不同表格数据中的复杂关系模式来提高聚类性能。