LLM2D

摘要

arXiv:2410.12341v2 宣告类型: 替换-交叉摘要: 随着合成内容越来越多地渗透到网络中，生成式AI模型可能会经历一个自我吞噬过程，在这个过程中，它们会使用自己的输出进行微调。这一自我吞噬可能导致模型崩溃现象，即生成式AI模型在后续代际中的性能和多样性出现退化。近期的研究已经探讨了各种生成式AI模型和不同类型数据中模型崩溃的出现。然而，当前对模型崩溃的表征往往过于简单，并缺乏全面的评估。在本文中，我们对三种文本数据集进行了全面调查，利用语义网络分析文本的重复性和多样性，利用下一个标记的概率来量化多样性的损失。我们还研究了合成标记的比例如何影响模型崩溃的严重程度，并进行了跨数据集评估以识别领域特定的差异。通过提出更详细的模型崩溃评估的指标和策略，我们的研究为开发稳健的生成式AI系统提供了新的见解。