LLM2D

摘要

arXiv:2502.04066v1 交叉发布类型: cross 摘要: OpenAI 的 GPT-4 技术报告建议，可以在训练前预测模型在特定任务上的性能，尽管具体的实现方法尚未说明。这种方法对于优化资源分配和确保数据与目标任务对齐至关重要。为了实现这一愿景，我们专注于预测封闭问题回答能力（CBQA）任务的性能，这些任务与预训练数据和知识保留密切相关。我们面临三个主要挑战：1) 掌握整个预训练过程，特别是数据构建；2) 评估模型的知识保留能力；以及 3) 使用仅可获得的训练前信息预测任务特定的知识保留。为了解决这些挑战，我们使用 560,000 美元和 520,000 GPU 小时预训练了三个大型语言模型（即 1.6B、7B 和 13B）。我们使用知识三元组分析预训练数据，并使用已建立的方法评估知识保留情况。此外，我们引入了 SMI 指标，这是一种信息论度量，量化预训练数据、模型大小与任务特定知识保留之间的关系。我们的实验表明，SMI 指标与不同大小模型（即 1.1B、1.6B、7B 和 13B）在 CBQA 任务上的准确性之间存在强烈的线性相关性（$\text{R}^2 > 0.84$）。数据集、模型和代码可在 https://github.com/yuhui1038/SMI 获得。