摘要
本文介绍了一种名为Cobweb4L的新方法,用于支持掩码词预测的高效语言模型学习。该方法基于Cobweb,这是一个增量系统,能够学习概率概念的层次结构。每个概念存储了与该概念标签相关联的实例中出现的词频。系统利用属性值表示法将词及其周围上下文编码为实例。Cobweb4L采用了类别效用的信息论变体,并引入了一种新的性能机制,该机制利用多个概念生成预测。我们证明,通过这些扩展,它显著优于仅使用单一节点生成预测的先前Cobweb性能机制。此外,我们展示了Cobweb4L能够快速学习,并达到与Word2Vec相当甚至更优的性能。接下来,我们表明,在相同任务中,Cobweb4L和Word2Vec在训练数据较少的情况下优于BERT。最后,我们讨论了未来的工作,以使我们的结论更加稳健和全面。