摘要
arXiv:2406.08446v2 宣布类型: replace-cross
摘要:人工智能的进步往往通过新模型在衡量模型能力的任务中声称改进的性能来展示。评估语言模型特别具有挑战性,因为模型评估任务方式的选择可能导致测量性能发生巨大变化。目前没有共同的标准设置,因此不同的模型以不同的方式在相同的任务上进行评估,导致关于哪个模型表现最佳的声明无法再现。我们提出了OLMES,这是一个完全记录、实用且开源的标准,用于可再现的语言大模型评估。在制定这一标准的过程中,我们确定并回顾了社区中采用的评估实践中的变化因素,例如提示格式的细节、上下文示例的选择、概率规范化和任务表述。特别是,OLMES 支持有意义的小基础模型与大模型之间的比较,后者可以利用原始问题表述形式,而前者需要不自然的“填空”形式的多项选择题。OLMES 包括基于现有文献结果以及新实验解决开放问题的考虑周到且有记录的建议。