LLM2D
多变量同分布选择
Multivariate Conformal Selection
作者: Tian Bai, Yue Zhao, Xiang Yu, Archer Y. Yang
发布日期: 5/5/2025
arXiv ID: oai:arXiv.org:2505.00917v1

摘要

arXiv:2505.00917v1 宣告类型:交叉 摘要:在药物发现、精准医疗和大规模语言模型(LLMs)对齐等应用中,从大规模数据集选择高质量候选对象至关重要。虽然一致性选择(CS)提供了严谨的不确定性量化,但其仅适用于单变量响应和标量标准。为解决这一问题,我们提出了一致性多变量选择(mCS),这是CS在多变量响应环境中的扩展。我们的方法引入了区域单调性和使用多变量非一致性得分来构建一致性p值,从而实现有限样本下的假发现率(FDR)控制。我们提出了两种变体:mCS-dist,使用基于距离的得分,以及mCS-learn,通过可微优化来学习最优得分。在模拟和真实数据集上的实验表明,mCS在显著提高选择性能的同时维持了FDR控制,确立了其作为多变量选择任务的稳健框架。