LLM2D
长尾引导扩散的生成型数据挖掘
Generative Data Mining with Longtail-Guided Diffusion
作者: David S. Hayden, Mao Ye, Timur Garipov, Gregory P. Meyer, Carl Vondrick, Zhao Chen, Yuning Chai, Eric Wolff, Siddhartha S. Srinivasa
发布日期: 2/5/2025
arXiv ID: 2502.01980

摘要

arXiv:2502.01980v1 宣告类型: cross 摘要:预测模型部署后将遇到的各种挑战难以预料。常规做法是采用一种反应性、循环的方法:模型部署、数据挖掘和重新训练。相反,我们通过在训练过程中设想额外的数据,发展了一种前瞻性长尾发现过程。特别是,我们开发了一种通用基于模型的长尾信号,包括一种不同可微的单次前向传递形式的先验不确定性,该形式不会影响模型参数或预测性能,但可以识别稀有或困难的输入。我们利用这些信号作为指导,从潜在扩散模型生成额外的训练数据,我们称之为长尾指导(LTG)的过程。关键的是,我们可以在不重新培训扩散模型或预测模型的情况下执行LTG,并且我们不需要将预测模型暴露在中间扩散状态中。由LTG生成的数据表现出语义上的有意义的变异性,在图像分类基准测试中实现了显著的一般化改进,并且可以通过分析来前瞻性地发现、解释和解决预测模型中的概念缺口。