LLM2D
自然语言文本中细粒度类别发现的通用方法
A Generic Method for Fine-grained Category Discovery in Natural Language Texts
作者: Chang Tian, Matthew B. Blaschko, Wenpeng Yin, Mingzhe Xing, Yinliang Yue, Marie-Francine Moens
发布日期: 2/7/2025
arXiv ID: oai:arXiv.org:2406.13103v2

摘要

arXiv:2406.13103v2 宣传类型: 更换 摘要: 仅使用粗粒度监督进行细粒度类别发现是一项成本效益高但具有挑战性的任务。以往的训练方法侧重于将查询样本与正样本对齐,同时将其与负样本区分开来。但在导航嵌入空间中的样本分布时,它们往往忽略了细粒度类别的类别内部和类别间语义相似性。此外,依赖预先收集的测试样本的一些评估技术对实时应用来说是不够的。为了解决这些不足,我们提出了一种方法,该方法通过一种新的目标函数成功地检测到由语义相似文本引导的细粒度聚类。该方法利用对数空间中的语义相似性来引导欧几里得空间中的样本分布,并形成代表细粒度类别的独特聚类。我们还提出了一种质心推断机制,以支持实时应用。该方法的有效性已在三个基准任务上得到了理论和实证上的验证。所提出的目标函数被集成到多个对比学习基于的神经模型中,其检测到的细粒度类别的准确率、调整兰德指数和归一化互信息超过现有最先进的方法。代码和数据可在 https://github.com/changtianluckyforever/F-grained-STAR 公开获取。