LLM2D
语言模型预训练过程中的知识熵衰减阻碍了新知识的获取
Knowledge Entropy Decay during Language Model Pretraining Hinders New Knowledge Acquisition
作者: Jiyeon Kim, Hyunji Lee, Hyowon Cho, Joel Jang, Hyeonbin Hwang, Seungpil Won, Youbin Ahn, Dohaeng Lee, Minjoon Seo
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2410.01380v1

摘要

本研究探讨了模型在预训练过程中,其将参数化知识广泛整合的倾向如何演变,以及这种行为如何影响整体性能,尤其是在知识获取和遗忘方面。我们引入了知识熵的概念,它量化了模型所使用的记忆来源范围;高知识熵表明模型利用了广泛的记忆来源,而低知识熵则表明模型更依赖于特定的来源。我们的分析表明,随着预训练的进行,知识熵持续下降。我们还发现,这种下降与模型获取和保留知识能力的下降密切相关,这使我们得出结论:知识熵的降低(活跃记忆来源数量减少)会损害模型的知识获取和保留能力。通过证明增加非活跃记忆来源的活动可以增强模型的知识获取和保留能力,我们进一步支持了这一结论。