摘要
arXiv:2504.09582v1 通告类型: 新
摘要: 知识发现因出版物数量的不断增加和标注数据的稀缺性而受到阻碍。为了应对信息过载的挑战,必须采用自动化方法进行知识提取和处理。在监督程度和模型效果之间找到正确的平衡是一个重大挑战。虽然监督技术通常会导致更好的性能,但它们的主要缺点是需要标注数据。这种需求 labor-intensive 和耗时,限制了在探索新领域时的可扩展性。在这种背景下,我们的研究旨在解决在无结构文本中识别生物医学实体(如疾病、蛋白质)之间的语义关系的挑战,同时尽量减少对监督的依赖。我们引入了一组基于依存树和注意力机制的无监督算法,并采用了多种点对点二元分类方法。从弱监督过渡到完全无监督设置,我们评估了方法从具有噪声标签的数据中学习的能力。在生物医学基准数据集上的评估探索了这些方法的有效性。我们的方法解决了知识发现中的核心问题:在最少监督的情况下保持性能的平衡。通过逐渐减少监督,我们评估了点对点二元分类技术处理噪声标签的鲁棒性,揭示了它们从弱监督到完全无监督场景的能力。综合基准测试提供了这些技术有效性的见解,表明在标注数据有限的情况下开发高效数据提取方法的乐观方向,代表了为创造适应性强的知识发现系统而取得的进步。