LLM2D

摘要

生成模型现在可以生成与用于训练它的真实数据几乎无法区分的逼真合成数据。这比以前的模型有了重大进步，以前的模型可以生成训练数据的合理仿制品，但这些仿制品可以通过人工评估从训练数据中视觉区分出来。最近关于 OOD 检测的研究表明，由于存在似然估计错误、生成过程中的熵以及典型性等问题，生成模型似然性并非最佳的 OOD 检测器。我们推测，生成式 OOD 检测器也失败了，因为它们的模型关注的是像素而不是数据的语义内容，这导致了在近 OOD 情况下出现故障，在近 OOD 情况下，像素可能相似，但信息内容却大不相同。我们假设使用自监督学习器估计典型集可以产生更好的 OOD 检测器。我们引入了一种新方法，该方法利用表示学习和基于流形估计的信息性汇总统计量来解决上述所有问题。我们的方法优于其他无监督方法，并在成熟的具有挑战性的基准测试和新的合成数据检测任务中取得了最先进的性能。