LLM2D
在仅使用训练前可用的信息预测大型语言模型在闭卷问答任务上的能力
Predicting Large Language Model Capabilities on Closed-Book QA Tasks Using Only Information Available Prior to Training
作者: Changhao Jiang, Ming Zhang, Junjie Ye, Xiaoran Fan, Yifei Cao, Jiajun Sun, Zhiheng Xi, Shihan Dou, Yi Dong, Yujiong Shen, Jingqi Tong, Zhen Wang, Tao Liang, Zhihui Fei, Mingyang Wan, Guojun Ma, Qi Zhang, Tao Gui, Xuanjing Huang
发布日期: 2/7/2025
arXiv ID: oai:arXiv.org:2502.04066v1

摘要

arXiv:2502.04066v1 交叉发布类型: cross 摘要: OpenAI 的 GPT-4 技术报告建议,可以在训练前预测模型在特定任务上的性能,尽管具体的实现方法尚未说明。这种方法对于优化资源分配和确保数据与目标任务对齐至关重要。为了实现这一愿景,我们专注于预测封闭问题回答能力(CBQA)任务的性能,这些任务与预训练数据和知识保留密切相关。我们面临三个主要挑战:1) 掌握整个预训练过程,特别是数据构建;2) 评估模型的知识保留能力;以及 3) 使用仅可获得的训练前信息预测任务特定的知识保留。为了解决这些挑战,我们使用 560,000 美元和 520,000 GPU 小时预训练了三个大型语言模型(即 1.6B、7B 和 13B)。我们使用知识三元组分析预训练数据,并使用已建立的方法评估知识保留情况。此外,我们引入了 SMI 指标,这是一种信息论度量,量化预训练数据、模型大小与任务特定知识保留之间的关系。我们的实验表明,SMI 指标与不同大小模型(即 1.1B、1.6B、7B 和 13B)在 CBQA 任务上的准确性之间存在强烈的线性相关性($\text{R}^2 > 0.84$)。数据集、模型和代码可在 https://github.com/yuhui1038/SMI 获得。