LLM2D
使用语义网络和下一token概率 characterization 大型语言模型中的模型崩塌
Characterizing Model Collapse in Large Language Models Using Semantic Networks and Next-Token Probability
作者: Daniele Gambetta, Gizem Gezici, Fosca Giannotti, Dino Pedreschi, Alistair Knott, Luca Pappalardo
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2410.12341v2

摘要

arXiv:2410.12341v2 宣告类型: 替换-交叉 摘要: 随着合成内容越来越多地渗透到网络中,生成式AI模型可能会经历一个自我吞噬过程,在这个过程中,它们会使用自己的输出进行微调。这一自我吞噬可能导致模型崩溃现象,即生成式AI模型在后续代际中的性能和多样性出现退化。近期的研究已经探讨了各种生成式AI模型和不同类型数据中模型崩溃的出现。然而,当前对模型崩溃的表征往往过于简单,并缺乏全面的评估。在本文中,我们对三种文本数据集进行了全面调查,利用语义网络分析文本的重复性和多样性,利用下一个标记的概率来量化多样性的损失。我们还研究了合成标记的比例如何影响模型崩溃的严重程度,并进行了跨数据集评估以识别领域特定的差异。通过提出更详细的模型崩溃评估的指标和策略,我们的研究为开发稳健的生成式AI系统提供了新的见解。