摘要
arXiv:2502.12088v2 重定向类型: 替换-交叉
摘要:本文表明,推动大型语言模型(LLMs)成功的工具和原则可以重新利用来解决分布级任务,这些任务的目标是预测数据生成分布的属性,而不是单个数据点的标签。这些任务包括统计推断问题,如参数估计、假设检验或互信息估计。在传统机器学习管道中表述这些任务是具有挑战性的,因为监督通常与单个数据点相关联。我们提出了元统计学习这一框架,该框架受到多实例学习的启发,重新定义了统计推断任务为监督学习问题。在此方法中,整个数据集被视为神经网络的单个输入,预测分布级别的参数。由于它们具有置换不变性特性,基于变换器的架构(不使用位置编码)提供了一个自然的契合。通过在大规模合成数据集上进行训练,元统计模型可以利用基于变换器的LLMs的可扩展性和优化基础设施。我们通过在假设检验和互信息估计方面的应用展示了该框架的通用性,展示了强大的性能,特别是在传统神经方法难以应对的小数据集方面。