摘要
arXiv:2502.04066v2 宣布类型: replace-cross
摘要:GPT-4技术报告强调了仅使用预训练信号预测模型在下游任务中表现的可能性,尽管详细方法缺失。这些预测能力对于资源高效预训练和构建任务对齐的数据集至关重要。在这篇论文中,我们旨在预测闭卷问答(QA)的表现,这是一个重要的下游任务,能够反映出模型的内部知识。我们解决的主要挑战有三项:(1)预训练语料库的有限访问和理解;(2)当前预训练模型评估方法的限制;(3)基于频率的指标在预测模型表现方面的局限性。针对这些挑战,我们在21个公开可用和3个自定义训练的大语言模型的预训练语料库上进行了大规模检索和语义分析。随后,我们开发了包含改述问题变体的多模板QA评估框架。基于这些基础,我们提出了大小依赖互信息(SMI),这是一种信息论度量,它线性相关于预训练数据特征、模型规模和问答准确性,而无需任何额外训练。实验结果表明,SMI在模型参数超过十亿的情况下,表现基线(基于共现)的$r^2$得分超过0.75。理论分析进一步揭示了扩展模型规模和优化数据的边际效益,表明特定问答任务准确性上的上限约为80%。我们的项目可在https://github.com/yuhui1038/SMI获取。