LLM2D

摘要

arXiv:2502.03323v1 宣传类型：跨领域摘要：区分分布内（In-Distribution, InD）和分布外（Out-of-Distribution, OOD）输入对于分类系统可靠部署至关重要。然而，OOD数据通常不可用或难以收集，这给准确的OOD检测带来了重大挑战。在本文中，我们提出了一种方法，利用大型语言模型（LLMs）的生成能力创建高质量的OOD代理，从而消除对外部OOD数据源的依赖。我们研究了该方法在经典文本分类任务（如毒性检测和情感分类）以及LLM开发和部署中的分类任务（如使用RLHF训练奖励模型和检测对齐失误生成）中的有效性。在九对InD-OOD数据集和各种模型规模上的广泛实验表明，我们的方法显著降低了假阳性率（在某些情况下实现完美零值），同时在分布内任务上的准确性保持较高，性能显著优于基线方法。