LLM2D

摘要

因果语言模型在预训练期间从通用文本语料库中获取大量知识，但众所周知，知识学习的效率并不令人满意，尤其是在从知识密集型且小规模的语料库中学习时。这种缺陷可能源于语言模型难以捕获的远距离依赖关系，以及对训练文本中的共现模式和干扰线索的过度拟合。为了解决这些问题，本文提出了一种方法，通过增强语言模型自身发现的文本中难以捉摸但重要的线索来增强语言模型预训练期间的知识学习。我们发现，更大的语言模型更多地关注不明显但重要的线索，而这些线索往往会被更小的语言模型忽略。因此，我们可以通过对比大型语言模型和小语言模型的注意力权重来识别这些线索。我们使用识别的线索作为指导，对训练文本执行令牌丢弃数据增强，并在事实记忆中观察到小型和大型模型性能的显著提升。这表明，性能更强和性能较差的语言模型之间的行为对比包含重要的知识学习线索，并且可以“放大”以直接提高知识学习效率。