LLM2D

摘要

一致性推断中的模型选择/优化具有挑战性，因为它可能会破坏标记数据和未标记数据之间的可交换性。我们在一致性选择（conformal selection）的背景下研究这个问题，一致性选择使用一致性p值从未标记数据池中选择具有较大未观察标签的“有趣”实例，同时控制有限样本中的错误发现率（FDR）。为了保证有效性，现有解决方案要求模型选择独立于用于构建p值和校准选择集的数据。然而，当面对许多模型选择和有限的标记数据时，理想的做法是：（i）以数据驱动的方式选择最佳模型，以及（ii）减轻样本分割导致的效能损失。本文提出了OptCS，这是一个通用框架，允许在灵活的数据驱动模型优化后进行有效的统计检验（选择）。我们介绍了OptCS在大量数据重用情况下构建有效的一致性p值的通用条件，并处理复杂的p值依赖性，通过一种新颖的多重检验程序来保持有限样本FDR控制。我们将这个通用方案实例化为三个控制FDR的程序，每个程序都以不同的方式优化模型：（i）在多个预训练候选模型中选择最有效的模型；（ii）将所有数据用于模型拟合，无需样本分割；以及（iii）结合全样本模型拟合和选择。我们通过模拟研究和药物发现以及放射学报告生成中大型语言模型对齐的实际应用，证明了我们方法的有效性。