LLM2D

摘要

arXiv:2502.12088v1 Announce Type: cross 摘要：本文展示了推动大规模语言模型（LLMs）成功的工具和原则可以重新利用来应对分布级任务，这些任务的目标是预测数据生成分布的属性，而不是个体数据点的标签。这些任务涵盖了统计推断问题，如参数估计、假设检验或互信息估计。在传统的机器学习管道中重新界定这些任务具有挑战性，因为监督通常与个体数据点相关联。我们提出了元统计学习这一框架，该框架受到多实例学习的启发，将统计推断任务重新表述为监督学习问题。在此方法中，整个数据集被当作神经网络的单一输入，以预测分布级别的参数。不采用位置编码的变压器架构由于其置换不变性性质，自然适用于此方法。通过在大规模合成数据集上进行训练，元统计模型可以利用基于变压器的大规模语言模型的可扩展性和优化基础设施。我们使用假设检验和互信息估计的应用展示了该框架的通用性，并在小型数据集上显示出了强大的性能，特别是在传统神经方法难以应对的情况下。