摘要
arXiv:2502.03292v1 宣告类型: cross
摘要:引证价值检测(CWD)是指确定文章或集合中哪些句子需要通过引证来验证所提供的信息。这项研究引入了ALPET,这是一种结合主动学习(AL)和模式利用训练(PET)的框架,以增强对数据资源有限的语言的引证价值检测。将ALPET应用于加泰罗尼亚语、巴斯克语和阿尔巴尼亚语的Wikipedia数据集时,其在某些情况下比现有的CCW基线性能更好,减少了超过80%的标记数据量。ALPET在300个标记样本后性能达到平台期,显示出其在大型、标记数据集不常见的情况下,适合低资源场景。虽然特定的主动学习查询策略,如使用K-Means聚类的方法,可以提供优势,但它们的有效性并不是普遍适用的,往往在较小的数据集上只能提供边际增益,特别是与随机抽样相比。这表明,尽管随机抽样简单,但它在受限制资源环境中仍然是CWD的强基线。总体而言,ALPET能够使用较少的标记样本实现高性能,使其成为在低资源语言环境中增强在线内容可验证性的有前途的工具。