摘要
条件有效性和长度效率是保形预测(CP)的两个关键方面。实现条件有效性可以确保对数据子群的准确不确定性量化,而适当的长度效率可以确保预测集保持信息性且非平凡。尽管在单独处理这些问题上已经做出了重大努力,但CP文献中一直缺少一个能够调和这两个目标的原则性框架。在本文中,我们开发了长度优化的保形预测(CPL)——一个新颖的框架,在确保各种协变量转移(包括边际和组条件覆盖的关键情况)下的条件有效性的同时,构建具有(近乎)最优长度的预测集。在无限样本情况下,我们提供了强对偶性结果,表明CPL实现了条件有效性和长度最优性。在有限样本情况下,我们表明CPL构建的预测集是条件有效的。我们广泛的实证评估展示了CPL在分类、回归和基于大语言模型的多项选择问题回答中的预测集大小性能优于现有的最新方法,涵盖了多种现实世界和合成数据集。