LLM2D
StaICC:基于上下文学习中分类任务的标准评估
StaICC: Standardized Evaluation for Classification Task in In-context Learning
作者: Hakaze Cho, Naoya Inoue
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2501.15708v2

摘要

arXiv:2501.15708v2 公告类型: replace-cross 摘要:分类任务在上下文学习(ICL)范式中被广泛研究。然而,当前的努力是在互斥的基准和设置上进行评估,而他们的性能受到了一些琐碎变量的影响,如提示模板、数据采样、指令等,这导致了不同文献中报告结果的巨大不一致性,阻碍了不同论文之间公平的比较或元分析。因此,本文提出了一个标准化且易于使用的评估工具包(StaICC)用于上下文分类。具体而言,对于普通的分类任务,我们提供了一个标准化的工具包 StaICC-Normal,选择了10个广泛使用的数据集,并生成具有固定形式的提示,以减轻实验实现之间的差异性。为了丰富我们基准的使用,我们还提供了一个次基准 StaICC-Diag 用于从多个方面诊断 ICL,旨在实现更稳健的推理处理。