摘要
arXiv:2502.04066v1 交叉发布类型: cross
摘要: OpenAI 的 GPT-4 技术报告建议,可以在训练前预测模型在特定任务上的性能,尽管具体的实现方法尚未说明。这种方法对于优化资源分配和确保数据与目标任务对齐至关重要。为了实现这一愿景,我们专注于预测封闭问题回答能力(CBQA)任务的性能,这些任务与预训练数据和知识保留密切相关。我们面临三个主要挑战:1) 掌握整个预训练过程,特别是数据构建;2) 评估模型的知识保留能力;以及 3) 使用仅可获得的训练前信息预测任务特定的知识保留。为了解决这些挑战,我们使用 560,000 美元和 520,000 GPU 小时预训练了三个大型语言模型(即 1.6B、7B 和 13B)。我们使用知识三元组分析预训练数据,并使用已建立的方法评估知识保留情况。此外,我们引入了 SMI 指标,这是一种信息论度量,量化预训练数据、模型大小与任务特定知识保留之间的关系。我们的实验表明,SMI 指标与不同大小模型(即 1.1B、1.6B、7B 和 13B)在 CBQA 任务上的准确性之间存在强烈的线性相关性($\text{R}^2 > 0.84$)。数据集、模型和代码可在 https://github.com/yuhui1038/SMI 获得。