LLM2D
基于代理的个性化多聚类与多模态LLMs
Agent-Centric Personalized Multiple Clustering with Multi-Modal LLMs
作者: Ziye Chen, Yiqun Duan, Riheng Zhu, Zhenbang Sun, Mingming Gong
发布日期: 3/31/2025
arXiv ID: oai:arXiv.org:2503.22241v1

摘要

arXiv:2503.22241v1 宣告类型: 新 摘要: 个性化多重聚类旨在根据不同的用户特定方面生成多样化的数据集分割,而不是单一的聚类。它最近因其能够适应不同用户偏好而引起了研究兴趣。最近的方法主要使用 CLIP 嵌入和代理学习来提取偏向用户聚类偏好的表示。然而,CLIP 主要集中在粗略的图像-文本对齐上,缺乏对用户兴趣的深入上下文理解。为了解决这些局限性,我们提出了一种以代理为中心的个性化聚类框架,利用多模态大型语言模型(MLLMs)作为代理,全面遍历关系图以根据用户兴趣搜索簇。由于 MLLMs 先进的推理机制,获得的簇与用户定义的标准更加一致,超过基于 CLIP 的表示。为了减少计算开销,我们通过使用 MLLMs 提取的偏向用户兴趣的嵌入构建关系图,缩短了代理的遍历路径。基于嵌入相似性可以过滤掉大量弱连接的边,从而促进代理的高效遍历搜索。实验结果表明,所提出的方法在 Card Order 和 Card Suits 基准上的 NMI 得分分别为 0.9667 和 0.9481,显著提高了最先进的模型超过 140%。